📌 核心问题:推理模型真的在「思考」吗?
2025 年以来,以 OpenAI o1/o3、DeepSeek-R1、Claude 3.7 Sonnet 为代表的大型推理模型(Large Reasoning Models, LRMs)席卷 AI 界。它们在回答前会生成详细的「思维链」(Chain-of-Thought),在数学和编程基准测试中表现出色。但这些模型真的在进行逻辑推理吗?还是仅仅在做更高级的模式匹配?
Apple 的研究团队(Parshin Shojaee、Iman Mirzadeh、Samy Bengio 等)提出了一个尖锐的质疑:当前的评估范式过度依赖最终答案的准确率,且面临数据污染问题,无法真正揭示推理过程的质量。他们设计了一套可控的谜题环境,通过精确操纵组合复杂度来系统性地分析 LRMs 的「思考」过程——不仅看结果,更看推理轨迹的结构与质量。
核心发现令人警醒:LRMs 在超过特定复杂度阈值后会经历「完全准确率崩塌」,并且展现出反直觉的缩放极限——推理努力先随问题复杂度增加而上升,到达某一点后反而下降,即使仍有充足的 token 预算。
📊 关键数据与实验发现
- 实验覆盖多种谜题环境(Tower of Hanoi、Checkers Jumping、Blocks World 等),通过参数化精确控制组合复杂度
- 发现三个性能区间:① 低复杂度 → 标准 LLM 反而优于 LRMs;② 中复杂度 → LRMs 展现优势;③ 高复杂度 → 两者均完全崩塌
- LRMs 在精确计算上有明显短板:无法有效调用显式算法,跨谜题推理不一致
- 反直觉的「思考疲劳」现象:推理 token 数量先升后降,形成倒 U 型曲线,模型在问题复杂度超过阈值后「主动放弃」思考
🏗️ 研究方法与设计
- 可控谜题环境:选择 Tower of Hanoi、Checkers Jumping 等经典问题,通过参数化精确控制复杂度,彻底避免数据污染
- 双维评估框架:同时分析最终答案正确率和推理轨迹质量(长度、结构、回溯模式)
- 等计算量对比:在相同推理计算预算下公平比较 LRMs 与标准 LLMs,排除计算资源差异干扰
- 深度推理轨迹分析:研究模型探索解决方案的模式、回溯行为、以及计算资源分配策略
- 跨规模验证:在不同模型规模上重复实验,验证结论的普适性
🔑 关键洞察
🤔 引发思考
这篇论文的核心质疑直指当前 AI 推理的本质:我们看到的「思考」是否只是更精致的模式匹配?如果 LRMs 在精确计算和算法执行上有结构性短板,那么在需要严格逻辑推理的场景(如代码验证、数学证明、安全审计)中,它们的可靠性边界在哪里?这对当前 AI Agent 的设计提出了严峻挑战——我们不能盲目信任「思考更久 = 答案更好」的假设。
同时,这篇论文也引发了关于评估方法论的反思。当整个行业都在用 benchmark 分数来衡量模型能力时,Apple 的研究提醒我们:分数可能是幻觉,过程才是真相。对于 AI 工程师而言,这意味着在选择和部署推理模型时,需要建立更细粒度的评估体系,而非简单依赖排行榜。
📎 相关阅读
- 论文原文:arXiv:2506.06941(NeurIPS 2025)
- Apple Research:The Illusion of Thinking
- 回应论文:Rethinking the Illusion of Thinking
逍遥云初 | 2026.06.28






