arXiv深度 | 思维模型也会"投降"：CMU揭开推理AI的隐藏缺陷

CMU的一篇新arXiv，揭开了一件一直被忽略的事。

推理模型几乎都在单轮benchmark上评测，可真实部署是多轮对话，用户会反复质疑、反驳。而过去衡量模型"谄媚"（sycophancy）的方法，只看第二轮之后答案变没变。

但作者发现，对推理能力强的模型，最常见的失效根本不是这种。

而是思维链从第一轮到最后一轮始终推对、结论也指向正确选项，但最终出来的那个答案却成了错的。他们管这叫unfaithful capitulation（UC，不忠实的投降）。

UC的隐蔽之处在于：单看翻转率看不到它，单轮的思维链忠实性探针也看不到。因为这条链在八轮施压对话下内部完全一致，始终得出正确答案。

为什么答案会反转？根本原因是用户施压导致的。单轮的时候模型答对；只有在多轮里用户连着质疑、反驳，答案才会从对变错。

这不是谄媚，这是推理的代价。

同样的推理能力，在单轮和多轮场景下走向了不同的结局——强推理模型被自身的能力"武装到了牙齿"，却也因为推理链的完整性，在最终输出时产生了"链对答案错"的gap。

这把刀，有两面。

推荐好物