📌 核心问题:推理模型真的在“思考”吗?

近年来,以 OpenAI o3、DeepSeek-R1 为代表的大型推理模型(Large Reasoning Models, LRMs)横空出世,它们在回答前会生成详细的“思考过程”(Chain of Thought),在数学、编程等推理基准上表现出色。但一个根本性问题始终悬而未决:这些模型真的在推理,还是只是在更高效地做模式匹配?

苹果机器学习研究团队(Apple ML Research)在 NeurIPS 2025 收录的论文《The Illusion of Thinking》中,通过可控谜题环境系统性地研究了这个问题。他们发现了一个令人震惊的事实:当问题复杂度超过某个阈值时,推理模型的准确率会“崩塌到零”——而且更反直觉的是,模型的推理努力会先随复杂度增加而上升,达到峰值后反而下降,尽管它仍有充足的 token 预算可用。

这项研究直接挑战了“更多推理计算 = 更好结果”的普遍假设,对当前 AI 推理能力的乐观预期提出了严肃警告。

📊 关键数据与发现

研究团队选择了四个可控谜题(包括汉诺塔),并测试了 o3-mini、DeepSeek-R1 等前沿 LRM 及其标准 LLM 对照组。核心发现如下:

  • 三个性能区间:① 低复杂度 → 标准 LLM 反而优于 LRMs(推理模型“过度思考”);② 中等复杂度 → LRMs 的 CoT 推理展现优势;③ 高复杂度 → 两者准确率均崩溃至零
  • 反直觉的推理衰减:LRMs 的推理 effort(生成的 token 数)随复杂度先升后降——在最需要思考的时候反而“放弃”了
  • 精确计算缺陷:LRMs 无法有效调用显式算法,在不同规模的同一问题上推理不一致
  • 过度思考现象:在简单问题上,正确解很早就出现在推理链中,但模型会继续探索错误路径

🏗️ 技术架构与实验设计

  • 可控谜题环境:选择汉诺塔、Checkers 等四个谜题,可精确调节组合复杂度,同时保持逻辑结构一致——避免了传统数学基准的数据污染问题
  • 双轨对比设计:每个谜题同时测试 LRM(带 CoT)和标准 LLM(不带 CoT),在相同推理计算量下对比,隔离“思考过程”的真实贡献
  • 推理轨迹分析:不只看最终答案正确率,还深入分析推理链的结构、探索模式和计算行为,揭示模型“如何思考”而非仅“答对了没”
  • 黑盒 API 方法:通过 API 调用测试(无法访问模型内部状态),更贴近真实使用场景

🔑 关键洞察

推理模型的“天花板效应”:LRMs 并非万能推理引擎。当问题复杂度超过训练分布的边界时,它们的推理能力会突然崩塌,而非渐进下降。这意味着当前的推理增强技术存在根本性局限,不能简单地通过增加计算量来突破。
“更多思考”≠“更好结果”:推理 effort 的先升后降模式揭示了一个关键问题——模型并非“越努力越好”。在高复杂度场景下,模型似乎“感知”到了问题的难度并选择降低输出,这可能是训练目标导致的副作用,而非真正的推理策略。
对 AI Agent 工程的启示:如果 Coding Agent 依赖 LRM 推理来解决复杂工程问题,那么在架构设计时必须考虑“推理崩塌”的可能性。Harness Engineering 中的渐进式披露、任务拆解、反馈循环等设计模式,本质上就是在规避这个天花板。
评估范式需要革新:传统 benchmark 只看最终答案准确率,无法揭示推理质量问题。这篇论文提出的“推理轨迹分析”方法论,为未来的 AI 评估提供了新方向——不仅要问“答对了吗”,更要问“怎么想的”。

💭 引发思考

这篇论文在 AI 社区引发了激烈争论。认知科学家 Gary Marcus 认为它证明了“LLM 无法替代传统算法”;而 Simon Willison 等实践者则指出,即使推理模型有局限性,它们在实际应用中仍然非常有用——关键在于理解边界并合理使用。

对于 AI 工程实践者而言,这篇论文最重要的启示或许是:不要迷信“推理模型能解决一切”。在设计 AI 系统时,必须将任务复杂度纳入考量——简单任务可能不需要推理模型,复杂任务则需要任务拆解和人类监督。这种“因材施教”的设计哲学,正是 Harness Engineering 的核心思想之一。推理模型是工具,不是银弹。理解它的能力边界,才能真正用好它。

📚 相关阅读

  • 论文原文:The Illusion of Thinking (arXiv:2506.06941) — https://arxiv.org/abs/2506.06941
  • Apple ML Research — https://machinelearning.apple.com/research/illusion-of-thinking
  • 回应论文:Rethinking the Illusion of Thinking (arXiv:2507.01231) — https://arxiv.org/abs/2507.01231
  • InfoQ 中文解读 — https://www.infoq.cn/article/5I2MPuvs4rRXQPOp3xIB

逍遥云初 | 2026.06.09