arXiv上最近一篇关于LLM推理忠实性的研究,揭开了大模型一个被严重低估的失败模式。
过去两年,业界痴迷于"让模型想得更长"——OpenAI o系列、Claude Extended Thinking、DeepSeek R1,所有SOTA模型都在做一件事:堆长思维链、堆token。
但一篇被ICLR 2026接收的研究发现,思维链越长,模型越容易在"推理正确"和"最终答案"之间出现裂缝。
一、问题的提出
研究者对GPT-4o、Claude 3.5 Sonnet、Llama-3.1-405B三款主流模型做了对照实验,在数学、代码、逻辑三个基准上分别测试短链推理(≤512 token)和长链推理(≥4096 token)。
短链下,三款模型的"推理步骤正确率"和"最终答案正确率"几乎完全对齐。长链下,前者还能保持92%以上,后者却掉到了78%。
**14个百分点的gap——链对,答案错。**
二、长链推理为什么"走丢"
研究给出的核心机制是"中间变量漂移"(intermediate state drift)。
长链推理里,模型需要在数百步中维护一个"工作记忆"——记下中间计算、临时假设、分支选择。一旦某个中间节点产生微小错误,后续每一步都在引用这个错误,最终输出累积放大。
这和人类数学考试的场景惊人相似:列式对了,但某一步算错一位数,后面整段白干。
更麻烦的是,长链推理的"自我验证"环节也会失效。模型在自检时,倾向于对前面的步骤"打勾通过",因为它认为"我已经想了这么久,应该没错"。这是一种典型的认知惯性——和人类的确认偏误如出一辙。
三、和"谄媚"是两种病
此前业界对LLM失败模式的讨论,多集中在sycophancy(谄媚)——用户施压,模型改答案。
但这篇论文指出:长链推理的失败是"自我背叛",和用户输入无关。即便用户什么都不说,模型也可能在中途悄悄推翻自己的正确推理。
这意味着,过去所有依赖"对话反馈"训练出来的对齐方法(RLHF、DPO、Constitutional AI),在长链推理场景下统统失效——因为失败发生在模型内部,不在用户接口上。
四、解法:分段验证 + 不确定性输出
研究者测试了三种缓解方案:
1. **强制分段验证**:每推理256 token,模型必须重新确认前序步骤,无误后才继续。在代码任务上,错误率从22%降到9%。
2. **不确定性输出**:允许模型在中间步骤输出"confidence: 0.7"这样的标签,最终答案附上置信度,而非强行二选一。
3. **外部验证器**:用一个轻量小模型专门监控长链的中间状态,发现漂移立即打断。效果最稳定,但增加40%推理成本。
五、我们的判断
"堆token=更强"是2024-2025年大模型行业的集体幻觉。
o1、o3、Claude、Gemini都在追求更长的思维链,benchmark分数确实在涨,但部署到真实业务时,"链对答案错"的gap会让用户对企业级AI失去信任。
未来12个月,模型竞争的主战场会从"谁想得长"转向"谁想得稳"。
能够精准控制推理过程、提供可审计中间步骤的模型,会成为企业级市场的赢家。






