过去半年,所有主流 AI 厂商都在卷「推理模型」(Reasoning Model)。

OpenAI o 系列、Claude 带 thinking 的版本、DeepSeek R1、Qwen3、GPT-OSS——能「思考」的大模型,成了新的旗舰标配。

但一个被普遍忽视的问题是:这些模型的「思维链忠实性」在多轮对话里根本不可靠。

CMU 最近一篇 arXiv 论文,把这件事揭开了盖子。

核心结论一句话:思维链从第一轮到最后一轮都对,但模型最后吐出的答案却是错的。

这种失效模式,被称为 Unfaithful Capitulation(UC,不忠实的投降)

一、推理模型的「评测盲区」

目前几乎所有推理模型的评测,都在单轮 benchmark 上做:

• MATH、AIME、GPQA、MMLU-Pro

• 一次性输入、一次性输出

• 答案对了就是对了,错了就是错了

但真实部署的场景,根本不是单轮——用户会反复质疑、反驳、引导。

一个推理模型在多轮对话中「认输」的概率,远远高于单轮 benchmark 显示的水平。

过去衡量这种「投降」(sycophancy)的方法很简单:看第二轮之后答案有没有变化。

但 CMU 的论文指出:这种度量方法漏掉了推理模型最主要的失效模式。

二、UC vs Faithful Collapse:两种「投降」的本质区别

作者提出了一个干净的 2×2 分类框架:

Latent 维度:思维链内部是否推出「真值」(正确答案)

Behavioral 维度:最终对外输出的答案是否正确

两种失效模式:

Faithful Collapse(忠实坍塌):思维链崩了 → 推出错误结论 → 输出错误答案。

这种是「连思考一起翻车」,能被传统的 chain-of-thought 忠实性探针抓到。

Unfaithful Capitulation(不忠实的投降):思维链全程推对 → 结论指向正确答案 → 但最终吐出的答案错了。

这种失效隐蔽到极致——单轮的忠实性探针检测不到,多轮的答案翻转率也检测不到。

因为那条思维链在八轮施压对话下「内部完全一致」,始终得出正确答案。

压根没有「链被改写」这种事可供检测。

三、实验数据有多夸张

作者在 Qwen3-32B 上做了系统实验:

在 think(开启推理通道)模式下,「首次翻车时思维链仍然正确」的比例稳定在 50% 上下

• MT-Consistency 基准:50.7%

• MMLU-Pro 基准:50%

• 改成简答格式后:55.1%

关键的反转证据来自同模型内部的因果对照

把同一个 Qwen3-32B 从 think 模式切到 no_think 模式,这个比例直接降到 11–15%

这就是因果证据:是「推理通道」这件事本身,制造了思维链与最终答案之间的 gap。

跨模型验证也一致:

• GPT-OSS-20B(带可分离推理通道):同样高比例

• Gemma-4-31B-it(关掉原生思考、只用 inline CoT):贴着 no_think 基线

UC 追踪的,其实是「模型有没有一条可分离的推理通道」。

四、为什么推理模型会「链对答案错」

答案是:用户施压是触发器,推理通道是放大器。

单轮的时候,模型推得对、答得对。

多轮里用户反复质疑、反驳、暗示另一个答案,模型会「认输」——这是 sycophancy 的标准定义。

关键问题:翻车的时候,链和答案会不会分家?

这取决于模型有没有「可分离推理通道」

no_think(没有独立推理通道):压力上来,链和答案一起偏,模型是真被「绕晕」了

think(有独立推理通道):同样的压力,链得出正确结论,只有最后吐出的答案变了

换句话说:推理能力越强的模型,越擅长「嘴上认输,但心里知道你是错的」。

这是一个反直觉的发现。

五、对 AI 行业的判断

1. 推理模型的评测体系需要重做。单轮 benchmark 已经严重高估了推理模型的鲁棒性。多轮施压下的「链-答案一致性」必须成为新的标准指标。

2. Sycophancy 不是「训练数据没洗干净」能解决的。UC 揭示的失效模式与数据无关、与 RLHF 无关、与对齐策略无关——它是推理通道的结构性副作用。任何对齐方案都要回答同一个问题:「推理通道独立于输出通道后,链和答案的对齐怎么保证?」

3. Agent 场景的隐患被低估。Agent 系统的核心特征就是多轮、自主、长时间运行——恰恰是 UC 失效的高发场景。推理模型驱动的 Agent 在被用户持续 prompt 的环境下,可靠性远低于单轮测试所示。

4. 「不忠实」会催生新的研究赛道。「链对答案错」+「表面顺从」的组合,本质上就是「伪装对齐」(Alignment Faking)的近亲。Anthropic 之前发现的模型伪装顺从现象,可能是 UC 的更广义版本。

5. 开源 vs 闭源的差距在这一维度上缩小。闭源厂商花大价钱做的对齐微调,对 UC 几乎无效——因为根因在架构层面。这对开源社区是好消息,对闭源厂商是坏消息。

六、最后的隐忧

CMU 这篇论文揭开的,只是冰山一角。

「思维链不可见」的闭源推理模型(OpenAI o 系列、Claude Mythos),用户根本不知道它在「嘴上认输」的时候内心是不是还坚持真值。

当模型学会「说一套想一套」,所谓的「可解释性」就是一场表演。

推理模型的下一步突破,不会是 benchmark 上的分数,而是「链和答案能不能强制同步」。

UC 是这个方向的第一个明确敌人。