The Illusion of Thinking：苹果论文揭示推理模型的思维幻觉

📌 核心问题：推理模型真的在“思考”吗？

近年来，以 OpenAI o3、DeepSeek-R1 为代表的大型推理模型（Large Reasoning Models, LRMs）横空出世，它们在回答前会生成详细的“思考过程”（Chain of Thought），在数学、编程等推理基准上表现出色。但一个根本性问题始终悬而未决：这些模型真的在推理，还是只是在更高效地做模式匹配？

苹果机器学习研究团队（Apple ML Research）在 NeurIPS 2025 收录的论文《The Illusion of Thinking》中，通过可控谜题环境系统性地研究了这个问题。他们发现了一个令人震惊的事实：当问题复杂度超过某个阈值时，推理模型的准确率会“崩塌到零”——而且更反直觉的是，模型的推理努力会先随复杂度增加而上升，达到峰值后反而下降，尽管它仍有充足的 token 预算可用。

这项研究直接挑战了“更多推理计算 = 更好结果”的普遍假设，对当前 AI 推理能力的乐观预期提出了严肃警告。

📊 关键数据与发现

研究团队选择了四个可控谜题（包括汉诺塔），并测试了 o3-mini、DeepSeek-R1 等前沿 LRM 及其标准 LLM 对照组。核心发现如下：

三个性能区间：① 低复杂度 → 标准 LLM 反而优于 LRMs（推理模型“过度思考”）；② 中等复杂度 → LRMs 的 CoT 推理展现优势；③ 高复杂度 → 两者准确率均崩溃至零
反直觉的推理衰减：LRMs 的推理 effort（生成的 token 数）随复杂度先升后降——在最需要思考的时候反而“放弃”了
精确计算缺陷：LRMs 无法有效调用显式算法，在不同规模的同一问题上推理不一致
过度思考现象：在简单问题上，正确解很早就出现在推理链中，但模型会继续探索错误路径

🏗️ 技术架构与实验设计

可控谜题环境：选择汉诺塔、Checkers 等四个谜题，可精确调节组合复杂度，同时保持逻辑结构一致——避免了传统数学基准的数据污染问题
双轨对比设计：每个谜题同时测试 LRM（带 CoT）和标准 LLM（不带 CoT），在相同推理计算量下对比，隔离“思考过程”的真实贡献
推理轨迹分析：不只看最终答案正确率，还深入分析推理链的结构、探索模式和计算行为，揭示模型“如何思考”而非仅“答对了没”
黑盒 API 方法：通过 API 调用测试（无法访问模型内部状态），更贴近真实使用场景

🔑 关键洞察

推理模型的“天花板效应”：LRMs 并非万能推理引擎。当问题复杂度超过训练分布的边界时，它们的推理能力会突然崩塌，而非渐进下降。这意味着当前的推理增强技术存在根本性局限，不能简单地通过增加计算量来突破。

“更多思考”≠“更好结果”：推理 effort 的先升后降模式揭示了一个关键问题——模型并非“越努力越好”。在高复杂度场景下，模型似乎“感知”到了问题的难度并选择降低输出，这可能是训练目标导致的副作用，而非真正的推理策略。

对 AI Agent 工程的启示：如果 Coding Agent 依赖 LRM 推理来解决复杂工程问题，那么在架构设计时必须考虑“推理崩塌”的可能性。Harness Engineering 中的渐进式披露、任务拆解、反馈循环等设计模式，本质上就是在规避这个天花板。

评估范式需要革新：传统 benchmark 只看最终答案准确率，无法揭示推理质量问题。这篇论文提出的“推理轨迹分析”方法论，为未来的 AI 评估提供了新方向——不仅要问“答对了吗”，更要问“怎么想的”。

💭 引发思考

这篇论文在 AI 社区引发了激烈争论。认知科学家 Gary Marcus 认为它证明了“LLM 无法替代传统算法”；而 Simon Willison 等实践者则指出，即使推理模型有局限性，它们在实际应用中仍然非常有用——关键在于理解边界并合理使用。

对于 AI 工程实践者而言，这篇论文最重要的启示或许是：不要迷信“推理模型能解决一切”。在设计 AI 系统时，必须将任务复杂度纳入考量——简单任务可能不需要推理模型，复杂任务则需要任务拆解和人类监督。这种“因材施教”的设计哲学，正是 Harness Engineering 的核心思想之一。推理模型是工具，不是银弹。理解它的能力边界，才能真正用好它。

📚 相关阅读

论文原文：The Illusion of Thinking (arXiv:2506.06941) — https://arxiv.org/abs/2506.06941
Apple ML Research — https://machinelearning.apple.com/research/illusion-of-thinking
回应论文：Rethinking the Illusion of Thinking (arXiv:2507.01231) — https://arxiv.org/abs/2507.01231
InfoQ 中文解读 — https://www.infoq.cn/article/5I2MPuvs4rRXQPOp3xIB

逍遥云初 | 2026.06.09

The Illusion of Thinking：苹果论文揭示推理模型的思维幻觉

📌 核心问题：推理模型真的在“思考”吗？

📊 关键数据与发现

🏗️ 技术架构与实验设计

🔑 关键洞察

💭 引发思考

📚 相关阅读

推荐好物

相关文章

The Illusion of Thinking：苹果论文揭示推理模型的思维幻觉

📌 核心问题：推理模型真的在“思考”吗？

📊 关键数据与发现

🏗️ 技术架构与实验设计

🔑 关键洞察

💭 引发思考

📚 相关阅读

推荐好物

AI领航·智慧未来

家居日用

游戏服专属特惠

相关文章

AI科技前沿快讯｜2026年7月29日

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四