Extended Thinking: AI Learn to Think Before Acting

Extended Thinking：当 AI 学会"三思而后行"

一句话版本

传统 LLM 看到问题立刻回答。Extended Thinking 让模型在推理阶段投入额外计算——思考越久，答案越好。这是一个新的 Scaling 维度。

论文来源

Learning to Reason with LLMshttps://openai.com/index/learning-to-reason-with-llms/ — OpenAI o1, 2024.09
Incentivizing Reasoning via RLhttps://arxiv.org/abs/2501.12948 — DeepSeek-R1, 2025.01
To CoT or not to CoT?https://arxiv.org/abs/2409.12183 — ICLR 2025, CoT 元分析
Claude 3.7 Sonnethttps://www.anthropic.com/news/claude-3-7-sonnet — Anthropic, 2025.02

为什么重要

模型 Scaling Law 边际收益递减，需要新的提升路径
Agent 架构要求模型能"规划、验证、自我纠错"，不只是"接话"
复杂推理任务的可靠性要求更高——不是选对题，是解真问题

关键数据

o1 vs GPT-4o — AIME 数学：83.3% vs 13.4%（6x） | Codeforces：1807 vs 808 | GPQA 博士推理：78% vs 人类 70%

DeepSeek-R1 — MATH-500：97.3% pass@1 | 纯 RL 训练，无人类 CoT 标注 | 推理能力自发涌现

CoT 边界（ICLR 2025 元分析）— 数学/符号推理收益显著 | 常识/知识问答几乎无效 | 只对"可验证"任务有效

技术架构：三条路线

Anthropic 路线：双模式统一。同一模型，标准模式 = 快速回答，Extended Thinking = 深度推理。用户控制思考预算（最高 128K tokens）。
DeepSeek 路线：纯 RL 驱动。GRPO（Group Relative Policy Optimization）让推理能力从 RL 中涌现。模型自己学会验证和回溯。
OpenAI 路线：Test-Time Compute Scaling。推理时投入更多计算 = 更好的答案，新的 scaling 维度。

四个洞察

1. 推理能力是涌现的，不是设计的

不需要人类教模型推理，只需给正确答案作为奖励信号。更好的训练信号 > 更复杂的推理模板。

2. CoT 有明确边界

只在数学/编码/逻辑上有效。Agent 架构应该按需触发思考模式，而非默认开启。

3. "模型能力"不再是一个固定值

同一个模型通过调节思考预算给出不同质量的答案。能力 = f(思考时间)。需要在延迟/成本/质量间动态权衡。

4. 思考过程可见性 = Agent 可信度

Anthropic 让用户看到推理过程。可审计性是 Agent 落地的关键。

对行业的影响

推理成本成为核心变量：同一个请求可能花 $0.01 或 $1.00
Agent 架构简化：外部编排可下沉到模型内部
好的工程实践让 Extended Thinking 发挥更大价值

Extended Thinking: AI Learn to Think Before Acting

Extended Thinking：当 AI 学会"三思而后行"

一句话版本

论文来源

为什么重要

关键数据

技术架构：三条路线

四个洞察

1. 推理能力是涌现的，不是设计的

2. CoT 有明确边界

3. "模型能力"不再是一个固定值

4. 思考过程可见性 = Agent 可信度

对行业的影响

相关阅读

推荐好物

相关文章

Extended Thinking: AI Learn to Think Before Acting

Extended Thinking：当 AI 学会"三思而后行"

一句话版本

论文来源

为什么重要

关键数据

技术架构：三条路线

四个洞察

1. 推理能力是涌现的，不是设计的

2. CoT 有明确边界

3. "模型能力"不再是一个固定值

4. 思考过程可见性 = Agent 可信度

对行业的影响

相关阅读

推荐好物

云产品精品福利

游戏服专属特惠

家居日用

相关文章

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四

2026 年国内 AI 剧漫剧市场规模将达 400 亿元，同比增长 138%