📌 核心问题:为什么 2025 是 LLM 推理的分水岭?

2025 年初,DeepSeek 发布了 R1 论文,展示了通过强化学习就能让大模型学会推理行为——模型生成中间推理步骤,从而显著提升答案准确率。这篇论文不仅震惊了整个 AI 领域,更直接重新定义了大模型后训练(post-training)的范式。

Sebastian Raschka 在年度回顾中指出,2025 年 LLM 发展的主线就是 RLVR(Reinforcement Learning with Verifiable Rewards)+ GRPO 算法。在此之前,后训练方法如 SFT 和 RLHF 严重依赖昂贵的人工标注数据,而 RLVR 通过可验证的确定性奖励信号,让模型可以大规模扩展后训练阶段的计算量。

更关键的是,DeepSeek R1 作为开源权重模型,性能媲美当时最好的闭源模型,且训练成本估计仅约 500 万美元——远低于业界此前认为的 5000 万到 5 亿美元。这一发现迫使整个行业重新审视大模型训练的经济学。

📊 关键数据

  • DeepSeek V3 训练成本:约 500 万美元(671B 参数模型),仅为此前行业估算的 1/10
  • DeepSeek R1 在 V3 基础上的额外训练成本:仅 29.4 万美元
  • 2025 年后训练技术演进主线:RLVR + GRPO 取代 RLHF + PPO 成为核心方法
  • DeepSeekMath-V2 通过推理时间扩展在数学竞赛基准上达到金牌水平

🏗️ 技术架构与关键设计

  • RLVR(可验证奖励的强化学习):用确定性方法自动生成奖励信号,彻底摆脱对人工标注的依赖
  • GRPO(Group Relative Policy Optimization):通过组内相对比较优化策略,已成为 2025 年最热门的后训练算法
  • GRPO 技巧进化:DAPO 零梯度过滤/主动采样/token级损失/无KL损失;Dr. GRPO 去标准差归一化;DeepSeek V3.2 领域特定 KL 调优
  • 推理时间扩展(Inference-time Scaling):通过 self-consistency 和 self-refinement 迭代优化答案质量
  • Mid-training 阶段:介于预训练和后训练之间,使用合成数据、领域特定数据、长上下文训练等技术

🔑 关键洞察

RLVR 正在从数学/代码向更多领域扩展。当前 RLVR 主要应用于数学和代码(奖励信号容易验证),但下一步是用第二个 LLM 来评判推理过程质量(Process Reward Models)。DeepSeekMath-V2 已展示这一方向的潜力。
大模型训练经济学被彻底重写。DeepSeek 证明顶级模型训练成本可能只有 500 万美元而非 5 亿,更多团队有能力训练前沿模型。但 Raschka 提醒:这个数字只计算了最终运行的算力成本,不包括研究人员薪资和大量实验调参开销。
后训练技术年度主线:2022 RLHF+PPO → 2023 LoRA SFT → 2024 Mid-Training → 2025 RLVR+GRPO。每一年都有核心范式转移,2025 的 RLVR 标志着后训练从「人类反馈」转向「可验证反馈」的根本性变革。
学术界在小预算下仍能做出关键突破。LoRA、DPO、GRPO 的各种改进很多来自学术界。RLVR 和 GRPO 概念上有趣且实验成本可控,为学术研究打开了新窗口。

💭 引发思考

Raschka 对 2026-2027 的预测:2026 年将是 RLVR 扩展 + 推理时间扩展的主战场,2027 年持续学习将成为焦点。持续学习的核心挑战——灾难性遗忘——目前还没有根本性解决方案,但这恰恰说明这是一个值得投入的研究方向。

对 AI Agent 从业者来说,RLVR 的扩展意味着未来 Agent 不仅能在数学和代码任务上自我验证,还可能在更复杂的推理任务中通过「过程奖励」而非仅仅「结果奖励」来提升能力。推理时间扩展的成熟则意味着在高价值场景下,可以通过投入更多推理计算来换取更高准确率,而不必等待更大的模型。

📎 相关阅读

  • DeepSeek R1: https://arxiv.org/abs/2501.12948
  • DeepSeek V3: https://arxiv.org/abs/2412.19437
  • DAPO: https://arxiv.org/abs/2503.14476
  • Dr. GRPO: https://arxiv.org/abs/2503.20783
  • DeepSeekMath-V2: https://arxiv.org/html/2511.22570v1

逍遥云初 | 2026.05.09