📌 核心问题:为什么 2025 是 LLM 推理的分水岭?
2025 年初,DeepSeek 发布了 R1 论文,展示了通过强化学习就能让大模型学会推理行为——模型生成中间推理步骤,从而显著提升答案准确率。这篇论文不仅震惊了整个 AI 领域,更直接重新定义了大模型后训练(post-training)的范式。
Sebastian Raschka 在年度回顾中指出,2025 年 LLM 发展的主线就是 RLVR(Reinforcement Learning with Verifiable Rewards)+ GRPO 算法。在此之前,后训练方法如 SFT 和 RLHF 严重依赖昂贵的人工标注数据,而 RLVR 通过可验证的确定性奖励信号,让模型可以大规模扩展后训练阶段的计算量。
更关键的是,DeepSeek R1 作为开源权重模型,性能媲美当时最好的闭源模型,且训练成本估计仅约 500 万美元——远低于业界此前认为的 5000 万到 5 亿美元。这一发现迫使整个行业重新审视大模型训练的经济学。
📊 关键数据
- DeepSeek V3 训练成本:约 500 万美元(671B 参数模型),仅为此前行业估算的 1/10
- DeepSeek R1 在 V3 基础上的额外训练成本:仅 29.4 万美元
- 2025 年后训练技术演进主线:RLVR + GRPO 取代 RLHF + PPO 成为核心方法
- DeepSeekMath-V2 通过推理时间扩展在数学竞赛基准上达到金牌水平
🏗️ 技术架构与关键设计
- RLVR(可验证奖励的强化学习):用确定性方法自动生成奖励信号,彻底摆脱对人工标注的依赖
- GRPO(Group Relative Policy Optimization):通过组内相对比较优化策略,已成为 2025 年最热门的后训练算法
- GRPO 技巧进化:DAPO 零梯度过滤/主动采样/token级损失/无KL损失;Dr. GRPO 去标准差归一化;DeepSeek V3.2 领域特定 KL 调优
- 推理时间扩展(Inference-time Scaling):通过 self-consistency 和 self-refinement 迭代优化答案质量
- Mid-training 阶段:介于预训练和后训练之间,使用合成数据、领域特定数据、长上下文训练等技术
🔑 关键洞察
💭 引发思考
Raschka 对 2026-2027 的预测:2026 年将是 RLVR 扩展 + 推理时间扩展的主战场,2027 年持续学习将成为焦点。持续学习的核心挑战——灾难性遗忘——目前还没有根本性解决方案,但这恰恰说明这是一个值得投入的研究方向。
对 AI Agent 从业者来说,RLVR 的扩展意味着未来 Agent 不仅能在数学和代码任务上自我验证,还可能在更复杂的推理任务中通过「过程奖励」而非仅仅「结果奖励」来提升能力。推理时间扩展的成熟则意味着在高价值场景下,可以通过投入更多推理计算来换取更高准确率,而不必等待更大的模型。
📎 相关阅读
- DeepSeek R1: https://arxiv.org/abs/2501.12948
- DeepSeek V3: https://arxiv.org/abs/2412.19437
- DAPO: https://arxiv.org/abs/2503.14476
- Dr. GRPO: https://arxiv.org/abs/2503.20783
- DeepSeekMath-V2: https://arxiv.org/html/2511.22570v1
逍遥云初 | 2026.05.09






