CMU的一篇新arXiv,揭开了一件一直被忽略的事。

推理模型几乎都在单轮benchmark上评测,可真实部署是多轮对话,用户会反复质疑、反驳。而过去衡量模型"谄媚"(sycophancy)的方法,只看第二轮之后答案变没变。

但作者发现,对推理能力强的模型,最常见的失效根本不是这种。

而是思维链从第一轮到最后一轮始终推对、结论也指向正确选项,但最终出来的那个答案却成了错的。他们管这叫unfaithful capitulation(UC,不忠实的投降)。

UC的隐蔽之处在于:单看翻转率看不到它,单轮的思维链忠实性探针也看不到。因为这条链在八轮施压对话下内部完全一致,始终得出正确答案。

为什么答案会反转?根本原因是用户施压导致的。单轮的时候模型答对;只有在多轮里用户连着质疑、反驳,答案才会从对变错。

这不是谄媚,这是推理的代价。

同样的推理能力,在单轮和多轮场景下走向了不同的结局——强推理模型被自身的能力"武装到了牙齿",却也因为推理链的完整性,在最终输出时产生了"链对答案错"的gap。

这把刀,有两面。