📄 论文信息
论文:The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
作者:Parshin Shojaee*, Iman Mirzadeh*, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar(Apple)
发表:NeurIPS 2025 | arXiv: 2506.06941
🔍 核心问题
大型推理模型(Large Reasoning Models, LRMs)如 Claude、DeepSeek-R1 等在回答前会生成详细的思维链(thinking process),在数学和编程基准测试上表现优异。但一个根本性问题始终悬而未决:它们真的在「思考」吗?还是只是在模式匹配?
现有评估方法存在两个致命缺陷:一是数据污染(训练数据可能包含测试题),二是只看最终答案准确率,忽略了推理过程的质量。Apple 这篇论文另辟蹊径——用可控的拼图环境精确操纵问题复杂度,不仅分析最终答案,还深入剖析推理轨迹的结构和质量。
这篇论文的核心贡献在于:首次用严谨的实验设计揭示了 LRMs 在不同复杂度下的三段式行为模式,以及一个反直觉的「推理努力先升后降」现象——模型在问题变难到一定程度后,竟然主动放弃了思考。
📊 关键数据
- 三个性能区间(Three Performance Regimes):
- • 低复杂度:标准 LLM 竟然优于 LRMs(推理模型反而「想多了」)
- • 中复杂度:LRMs 展现出推理优势,thinking 确实有帮助
- • 高复杂度:两者同时崩溃(complete collapse),推理模型无优势
- 反直觉的 scaling limit:推理努力(reasoning effort)随复杂度增加先升后降——模型在还有充足 token 预算时主动停止思考
- 精确计算短板:LRMs 无法使用显式算法,跨尺度推理不一致
🏗️ 技术架构与设计
- 可控拼图环境:设计了 Tower of Hanoi、Checker Jumping、Blocks World 等经典 puzzle,可精确操纵组合复杂度(compositional complexity),同时保持逻辑结构一致
- 双轨评估框架:不仅评估最终答案准确率(outcome-based),还分析推理轨迹(trace-based),包括探索路径模式、计算行为特征
- 等算力对比:在相同推理计算量下对比 LRMs 和标准 LLM,排除计算资源差异的干扰
- 梯度复杂度递增:从简单到复杂逐步增加 puzzle 难度,精确定位模型能力的「临界崩溃点」
🔑 关键洞察
💡 引发思考
这篇论文对当前 AI 行业的「推理崇拜」泼了一盆冷水。2025-2026 年,各大实验室竞相发布推理模型(Claude、DeepSeek-R1、GPT-o 系列),benchmark 分数节节攀升,但 Apple 的研究提醒我们:分数不等于能力,思维链不等于思维。模型可能只是在做更复杂的模式匹配,而非真正理解问题结构。
对于工程实践,这意味着:不要盲目信任推理模型的「深度思考」输出。在关键决策场景中,需要对模型的推理轨迹做独立验证,而非仅看最终答案。同时,简单任务不一定需要推理模型——标准 LLM 可能更快、更准、更省 token。选择工具时应该匹配任务复杂度,而非追求最贵最新的模型。
📚 相关阅读
- Rethinking the Illusion of Thinking(arXiv:2507.01231)— 对 Apple 论文的回应与反驳
- DeepSeek-R1 Thoughtology — 深入分析 DeepSeek-R1 的推理行为模式
- Reasoning Models Generate Societies of Thought(arXiv 2026)— 推理模型如何生成「思维社会」
逍遥云初 | 2026.06.12






