📌 核心问题:推理模型真的在「思考」吗?

近年来,以 o1、DeepSeek-R1、Claude 3.7 Sonnet 为代表的大推理模型(Large Reasoning Models, LRMs)成为 AI 领域的焦点。它们通过生成详细的思维链(Chain-of-Thought)来「思考」,在数学和编程基准上表现亮眼。但一个根本性问题始终悬而未决:这些模型真的在推理,还是只是在记忆模式?

Apple 团队(Parshin Shojaee、Iman Mirzadeh、Samy Bengio 等)发表了一篇极具争议的论文,通过可控的谜题环境(如汉诺塔、跳棋等)精确操控组合复杂度,首次系统性地揭示了推理模型的能力边界和根本局限。论文在 AI 圈引发激烈讨论——Anthropic 等机构随后发文反驳,形成了 2025 年最重要的技术论战之一。

现有评估主要依赖数学和编程基准,关注最终答案准确率。但这种方法容易受到数据污染,且无法揭示推理过程的质量和结构。Apple 的论文首次将分析从「答案对不对」转向「推理过程是否有效」,通过精确控制的实验环境打开了推理模型的「黑箱」。

📊 关键数据:三个性能区间与意外的推理崩塌

论文在多个谜题上进行大规模实验,揭示了三个关键发现:

  • 低复杂度任务:标准 LLM 反而优于推理模型 — 推理模型的「过度思考」在简单问题上是负担
  • 中等复杂度任务:推理模型的思维链带来优势 — 这是 LRM 真正有价值的区间
  • 高复杂度任务:所有模型完全崩塌 — 推理努力在达到某个临界点后反而下降

最反直觉的发现是「推理努力衰减」现象:随着问题复杂度增加,推理模型的思考量先增后降,最终在仍有充足 token 预算的情况下停止推理。这表明模型存在某种内在的「放弃机制」,而非被资源限制。

🏗️ 技术架构与实验设计

  • 可控谜题环境:选择汉诺塔、跳棋、积木世界等经典 AI 谜题,可精确控制组合复杂度,同时保持一致的逻辑结构
  • 推理过程分析:不仅评估最终答案,还深入分析推理链的结构、模式和效率
  • 对比实验设计:在相同推理计算量下,对比 LRM 与标准 LLM 的表现,分离「思考」的真实贡献
  • 计算行为分析:研究模型探索解决方案的模式,发现 LRMs 在精确计算方面存在根本限制,无法有效使用显式算法
  • 跨谜题一致性检验:在多种谜题上验证结论的普适性,而非仅在单一任务上做文章

🔑 关键洞察

🔑 洞察一:推理不是万能药

论文证明了「Extended Thinking」并非银弹。在简单任务上,推理模型的额外思考是冗余的;在高复杂度任务上,思考链反而可能引入错误。这意味着模型选择应根据任务复杂度动态调整,而非一味追求更长的推理过程。

🔑 洞察二:推理模型无法进行精确计算

LRMs 在需要精确算法执行的任务上表现糟糕。它们无法可靠地实现显式算法(如递归、动态规划),更多是在「直觉式」地生成近似解。这揭示了当前推理模型与真正符号推理系统之间的本质差距。

🔑 洞察三:推理努力的「自限性」现象

最令人意外的发现:推理模型在面对超出能力范围的问题时,会主动减少推理努力。这不是 token 预算的限制,而是模型的内在行为。这暗示推理模型可能存在某种「能力天花板感知」,或者其推理策略在复杂度超过阈值后失效。

🔑 洞察四:评估范式需要根本变革

现有 benchmark 侧重最终准确率,无法区分「真正推理」和「模式匹配」。论文呼吁建立更细粒度的推理过程评估体系——不仅看答案是否正确,还要看推理路径是否合理、是否使用了正确的算法、推理是否具有可解释性。

💭 引发思考

这篇论文对当前 AI 行业的「推理崇拜」提出了严肃质疑。如果推理模型的核心优势——更长的思考过程——在关键场景下失效,那么整个 Scaling Law for Reasoning 的叙事需要重新审视。论文引发了 Anthropic 等机构的反驳(arXiv:2507.01231),形成了 2025 年最重要的技术辩论,推动社区从「能不能推理」转向「如何更好地推理」。

对于工程实践而言,论文的启示是务实的:在部署推理模型时,需要根据任务复杂度选择合适的模型和推理深度,而非盲目追求更强的推理能力。真正的突破可能不在于让模型「思考更多」,而在于让模型「思考得更对」——结合符号推理、工具调用和结构化验证,而非纯粹依赖神经网络的隐式推理。


📎 相关阅读


逍遥云初 | 2026.06.16