📌 核心问题:推理模型真的在“思考”吗?
近年来,以 OpenAI o3、DeepSeek-R1 为代表的大型推理模型(Large Reasoning Models, LRMs)横空出世,它们在回答前会生成详细的“思考过程”(Chain of Thought),在数学、编程等推理基准上表现出色。但一个根本性问题始终悬而未决:这些模型真的在推理,还是只是在更高效地做模式匹配?
苹果机器学习研究团队(Apple ML Research)在 NeurIPS 2025 收录的论文《The Illusion of Thinking》中,通过可控谜题环境系统性地研究了这个问题。他们发现了一个令人震惊的事实:当问题复杂度超过某个阈值时,推理模型的准确率会“崩塌到零”——而且更反直觉的是,模型的推理努力会先随复杂度增加而上升,达到峰值后反而下降,尽管它仍有充足的 token 预算可用。
这项研究直接挑战了“更多推理计算 = 更好结果”的普遍假设,对当前 AI 推理能力的乐观预期提出了严肃警告。
📊 关键数据与发现
研究团队选择了四个可控谜题(包括汉诺塔),并测试了 o3-mini、DeepSeek-R1 等前沿 LRM 及其标准 LLM 对照组。核心发现如下:
- 三个性能区间:① 低复杂度 → 标准 LLM 反而优于 LRMs(推理模型“过度思考”);② 中等复杂度 → LRMs 的 CoT 推理展现优势;③ 高复杂度 → 两者准确率均崩溃至零
- 反直觉的推理衰减:LRMs 的推理 effort(生成的 token 数)随复杂度先升后降——在最需要思考的时候反而“放弃”了
- 精确计算缺陷:LRMs 无法有效调用显式算法,在不同规模的同一问题上推理不一致
- 过度思考现象:在简单问题上,正确解很早就出现在推理链中,但模型会继续探索错误路径
🏗️ 技术架构与实验设计
- 可控谜题环境:选择汉诺塔、Checkers 等四个谜题,可精确调节组合复杂度,同时保持逻辑结构一致——避免了传统数学基准的数据污染问题
- 双轨对比设计:每个谜题同时测试 LRM(带 CoT)和标准 LLM(不带 CoT),在相同推理计算量下对比,隔离“思考过程”的真实贡献
- 推理轨迹分析:不只看最终答案正确率,还深入分析推理链的结构、探索模式和计算行为,揭示模型“如何思考”而非仅“答对了没”
- 黑盒 API 方法:通过 API 调用测试(无法访问模型内部状态),更贴近真实使用场景
🔑 关键洞察
💭 引发思考
这篇论文在 AI 社区引发了激烈争论。认知科学家 Gary Marcus 认为它证明了“LLM 无法替代传统算法”;而 Simon Willison 等实践者则指出,即使推理模型有局限性,它们在实际应用中仍然非常有用——关键在于理解边界并合理使用。
对于 AI 工程实践者而言,这篇论文最重要的启示或许是:不要迷信“推理模型能解决一切”。在设计 AI 系统时,必须将任务复杂度纳入考量——简单任务可能不需要推理模型,复杂任务则需要任务拆解和人类监督。这种“因材施教”的设计哲学,正是 Harness Engineering 的核心思想之一。推理模型是工具,不是银弹。理解它的能力边界,才能真正用好它。
📚 相关阅读
- 论文原文:The Illusion of Thinking (arXiv:2506.06941) — https://arxiv.org/abs/2506.06941
- Apple ML Research — https://machinelearning.apple.com/research/illusion-of-thinking
- 回应论文:Rethinking the Illusion of Thinking (arXiv:2507.01231) — https://arxiv.org/abs/2507.01231
- InfoQ 中文解读 — https://www.infoq.cn/article/5I2MPuvs4rRXQPOp3xIB
逍遥云初 | 2026.06.09






