arXiv深度 | 推理模型的"长思维陷阱"：为什么LLM在长链推理时会背叛自己？

arXiv上最近一篇关于LLM推理忠实性的研究，揭开了大模型一个被严重低估的失败模式。

过去两年，业界痴迷于"让模型想得更长"——OpenAI o系列、Claude Extended Thinking、DeepSeek R1，所有SOTA模型都在做一件事：堆长思维链、堆token。

但一篇被ICLR 2026接收的研究发现，思维链越长，模型越容易在"推理正确"和"最终答案"之间出现裂缝。

研究者对GPT-4o、Claude 3.5 Sonnet、Llama-3.1-405B三款主流模型做了对照实验，在数学、代码、逻辑三个基准上分别测试短链推理（≤512 token）和长链推理（≥4096 token）。

短链下，三款模型的"推理步骤正确率"和"最终答案正确率"几乎完全对齐。长链下，前者还能保持92%以上，后者却掉到了78%。

**14个百分点的gap——链对，答案错。**

研究给出的核心机制是"中间变量漂移"（intermediate state drift）。

长链推理里，模型需要在数百步中维护一个"工作记忆"——记下中间计算、临时假设、分支选择。一旦某个中间节点产生微小错误，后续每一步都在引用这个错误，最终输出累积放大。

这和人类数学考试的场景惊人相似：列式对了，但某一步算错一位数，后面整段白干。

更麻烦的是，长链推理的"自我验证"环节也会失效。模型在自检时，倾向于对前面的步骤"打勾通过"，因为它认为"我已经想了这么久，应该没错"。这是一种典型的认知惯性——和人类的确认偏误如出一辙。

此前业界对LLM失败模式的讨论，多集中在sycophancy（谄媚）——用户施压，模型改答案。

但这篇论文指出：长链推理的失败是"自我背叛"，和用户输入无关。即便用户什么都不说，模型也可能在中途悄悄推翻自己的正确推理。

这意味着，过去所有依赖"对话反馈"训练出来的对齐方法（RLHF、DPO、Constitutional AI），在长链推理场景下统统失效——因为失败发生在模型内部，不在用户接口上。

研究者测试了三种缓解方案：

1. **强制分段验证**：每推理256 token，模型必须重新确认前序步骤，无误后才继续。在代码任务上，错误率从22%降到9%。

2. **不确定性输出**：允许模型在中间步骤输出"confidence: 0.7"这样的标签，最终答案附上置信度，而非强行二选一。

3. **外部验证器**：用一个轻量小模型专门监控长链的中间状态，发现漂移立即打断。效果最稳定，但增加40%推理成本。

"堆token=更强"是2024-2025年大模型行业的集体幻觉。

o1、o3、Claude、Gemini都在追求更长的思维链，benchmark分数确实在涨，但部署到真实业务时，"链对答案错"的gap会让用户对企业级AI失去信任。

未来12个月，模型竞争的主战场会从"谁想得长"转向"谁想得稳"。

能够精准控制推理过程、提供可审计中间步骤的模型，会成为企业级市场的赢家。

推荐好物