Sebastian Raschka 2025 LLM 年度回顾：RLVR+GRPO 如何重塑大模型推理能力

📌 核心问题：为什么 2025 是 LLM 推理的分水岭？

2025 年初，DeepSeek 发布了 R1 论文，展示了通过强化学习就能让大模型学会推理行为——模型生成中间推理步骤，从而显著提升答案准确率。这篇论文不仅震惊了整个 AI 领域，更直接重新定义了大模型后训练（post-training）的范式。

Sebastian Raschka 在年度回顾中指出，2025 年 LLM 发展的主线就是 RLVR（Reinforcement Learning with Verifiable Rewards）+ GRPO 算法。在此之前，后训练方法如 SFT 和 RLHF 严重依赖昂贵的人工标注数据，而 RLVR 通过可验证的确定性奖励信号，让模型可以大规模扩展后训练阶段的计算量。

更关键的是，DeepSeek R1 作为开源权重模型，性能媲美当时最好的闭源模型，且训练成本估计仅约 500 万美元——远低于业界此前认为的 5000 万到 5 亿美元。这一发现迫使整个行业重新审视大模型训练的经济学。

📊 关键数据

DeepSeek V3 训练成本：约 500 万美元（671B 参数模型），仅为此前行业估算的 1/10
DeepSeek R1 在 V3 基础上的额外训练成本：仅 29.4 万美元
2025 年后训练技术演进主线：RLVR + GRPO 取代 RLHF + PPO 成为核心方法
DeepSeekMath-V2 通过推理时间扩展在数学竞赛基准上达到金牌水平

🏗️ 技术架构与关键设计

RLVR（可验证奖励的强化学习）：用确定性方法自动生成奖励信号，彻底摆脱对人工标注的依赖
GRPO（Group Relative Policy Optimization）：通过组内相对比较优化策略，已成为 2025 年最热门的后训练算法
GRPO 技巧进化：DAPO 零梯度过滤/主动采样/token级损失/无KL损失；Dr. GRPO 去标准差归一化；DeepSeek V3.2 领域特定 KL 调优
推理时间扩展（Inference-time Scaling）：通过 self-consistency 和 self-refinement 迭代优化答案质量
Mid-training 阶段：介于预训练和后训练之间，使用合成数据、领域特定数据、长上下文训练等技术

🔑 关键洞察

RLVR 正在从数学/代码向更多领域扩展。当前 RLVR 主要应用于数学和代码（奖励信号容易验证），但下一步是用第二个 LLM 来评判推理过程质量（Process Reward Models）。DeepSeekMath-V2 已展示这一方向的潜力。

大模型训练经济学被彻底重写。DeepSeek 证明顶级模型训练成本可能只有 500 万美元而非 5 亿，更多团队有能力训练前沿模型。但 Raschka 提醒：这个数字只计算了最终运行的算力成本，不包括研究人员薪资和大量实验调参开销。

后训练技术年度主线：2022 RLHF+PPO → 2023 LoRA SFT → 2024 Mid-Training → 2025 RLVR+GRPO。每一年都有核心范式转移，2025 的 RLVR 标志着后训练从「人类反馈」转向「可验证反馈」的根本性变革。

学术界在小预算下仍能做出关键突破。LoRA、DPO、GRPO 的各种改进很多来自学术界。RLVR 和 GRPO 概念上有趣且实验成本可控，为学术研究打开了新窗口。

💭 引发思考

Raschka 对 2026-2027 的预测：2026 年将是 RLVR 扩展 + 推理时间扩展的主战场，2027 年持续学习将成为焦点。持续学习的核心挑战——灾难性遗忘——目前还没有根本性解决方案，但这恰恰说明这是一个值得投入的研究方向。

对 AI Agent 从业者来说，RLVR 的扩展意味着未来 Agent 不仅能在数学和代码任务上自我验证，还可能在更复杂的推理任务中通过「过程奖励」而非仅仅「结果奖励」来提升能力。推理时间扩展的成熟则意味着在高价值场景下，可以通过投入更多推理计算来换取更高准确率，而不必等待更大的模型。

📎 相关阅读

DeepSeek R1: https://arxiv.org/abs/2501.12948
DeepSeek V3: https://arxiv.org/abs/2412.19437
DAPO: https://arxiv.org/abs/2503.14476
Dr. GRPO: https://arxiv.org/abs/2503.20783
DeepSeekMath-V2: https://arxiv.org/html/2511.22570v1

逍遥云初 | 2026.05.09

Sebastian Raschka 2025 LLM 年度回顾：RLVR+GRPO 如何重塑大模型推理能力

📌 核心问题：为什么 2025 是 LLM 推理的分水岭？

📊 关键数据

🏗️ 技术架构与关键设计

🔑 关键洞察

💭 引发思考

📎 相关阅读

推荐好物

相关文章

Sebastian Raschka 2025 LLM 年度回顾：RLVR+GRPO 如何重塑大模型推理能力

📌 核心问题：为什么 2025 是 LLM 推理的分水岭？

📊 关键数据

🏗️ 技术架构与关键设计

🔑 关键洞察

💭 引发思考

📎 相关阅读

推荐好物

AI领航·智慧未来

女装

鲜花

相关文章

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四

2026 年国内 AI 剧漫剧市场规模将达 400 亿元，同比增长 138%