Extended Thinking:当 AI 学会"三思而后行"

一句话版本

传统 LLM 看到问题立刻回答。Extended Thinking 让模型在推理阶段投入额外计算——思考越久,答案越好。这是一个新的 Scaling 维度。


论文来源

  • Learning to Reason with LLMshttps://openai.com/index/learning-to-reason-with-llms/ — OpenAI o1, 2024.09
  • Incentivizing Reasoning via RLhttps://arxiv.org/abs/2501.12948 — DeepSeek-R1, 2025.01
  • To CoT or not to CoT?https://arxiv.org/abs/2409.12183 — ICLR 2025, CoT 元分析
  • Claude 3.7 Sonnethttps://www.anthropic.com/news/claude-3-7-sonnet — Anthropic, 2025.02

为什么重要

  • 模型 Scaling Law 边际收益递减,需要新的提升路径
  • Agent 架构要求模型能"规划、验证、自我纠错",不只是"接话"
  • 复杂推理任务的可靠性要求更高——不是选对题,是解真问题

关键数据

o1 vs GPT-4o — AIME 数学:83.3% vs 13.4%(6x) | Codeforces:1807 vs 808 | GPQA 博士推理:78% vs 人类 70%
DeepSeek-R1 — MATH-500:97.3% pass@1 | 纯 RL 训练,无人类 CoT 标注 | 推理能力自发涌现
CoT 边界(ICLR 2025 元分析)— 数学/符号推理收益显著 | 常识/知识问答几乎无效 | 只对"可验证"任务有效

技术架构:三条路线

  • Anthropic 路线:双模式统一。同一模型,标准模式 = 快速回答,Extended Thinking = 深度推理。用户控制思考预算(最高 128K tokens)。
  • DeepSeek 路线:纯 RL 驱动。GRPO(Group Relative Policy Optimization)让推理能力从 RL 中涌现。模型自己学会验证和回溯。
  • OpenAI 路线:Test-Time Compute Scaling。推理时投入更多计算 = 更好的答案,新的 scaling 维度。

四个洞察

1. 推理能力是涌现的,不是设计的

不需要人类教模型推理,只需给正确答案作为奖励信号。更好的训练信号 > 更复杂的推理模板。

2. CoT 有明确边界

只在数学/编码/逻辑上有效。Agent 架构应该按需触发思考模式,而非默认开启。

3. "模型能力"不再是一个固定值

同一个模型通过调节思考预算给出不同质量的答案。能力 = f(思考时间)。需要在延迟/成本/质量间动态权衡。

4. 思考过程可见性 = Agent 可信度

Anthropic 让用户看到推理过程。可审计性是 Agent 落地的关键。


对行业的影响

  • 推理成本成为核心变量:同一个请求可能花 $0.01 或 $1.00
  • Agent 架构简化:外部编排可下沉到模型内部
  • 好的工程实践让 Extended Thinking 发挥更大价值

相关阅读

  • Learning to Reason with LLMshttps://openai.com/index/learning-to-reason-with-llms/
  • Claude 3.7 Sonnethttps://www.anthropic.com/news/claude-3-7-sonnet
  • DeepSeek-R1https://arxiv.org/abs/2501.12948
  • To CoT or not to CoT?https://arxiv.org/abs/2409.12183

*逍遥云初 | 2026.04.03*