📌 核心问题

强化学习(RL)已成为大模型后训练的标准范式。以 GRPO 为代表的基于结果的方法虽然简洁,但面临奖励信号稀疏的根本性问题——模型只能在推理链终点获得反馈,导致探索效率低下和 overthinking。过程奖励模型(PRM)虽然提供密集反馈,但标注成本高昂且容易被 reward hacking。

现有基于规则的过程监督方法(如 MRT、SPO)虽然在一定程度上解决了上述问题,但存在三个关键缺陷:(1)无法区分真正的推理进展与冗余的 verbosity;(2)缺乏对推理阶段难度的感知;(3)没有对 token 效率的显式约束。这意味着模型可能通过「绕弯路再恢复」的策略获得更高奖励(即 sandbagging 问题),同时产生大量冗余推理 token。

这篇来自华为 Taylor Lab、北京大学、上海财经大学的 ACL 2026 主会论文,提出了 SHAPE 框架,首次将推理路径优化的三个维度——潜在增益、阶段感知、token 效率——统一在一个层级化信用分配机制中。

📊 关键数据

  • 在 3 个基础模型(Qwen2.5-7B、Qwen2.5-32B 等)× 5 个数学推理 benchmark 上,平均准确率提升 3%
  • token 消耗减少 30%,推理更精简高效
  • 相比 MRT、SPO、GRPO、S-GRPO 等基线方法,SHAPE 在准确率和效率两个维度同时领先
  • 在 MATH-500、GSM8K、AIME 等标准 benchmark 上均验证了一致性增益

🏗️ 技术架构与设计

  • 推理潜力(Reasoning Potential Φ):将推理过程建模为状态空间中的轨迹,每个中间状态的 Φ 值代表从该状态出发的可解概率(通过 rollout 估计)
  • 三原则统一:Potential Gain + Stage Awareness + Token Efficiency,通过动态折扣因子 γ_k 在单一机制中同时编码
  • 熵驱动分段:用 token 级别熵值识别推理边界(高熵 = 逻辑转折点),替代传统的固定分隔符或低概率 token 切分
  • 层级信用分配:段级别用阶段感知优势函数,token 级别用熵驱动重分配将学习信号聚焦到关键决策 token
  • 抗 sandbagging:引入局部潜在差分建模,强制单调进展,封堵策略性 sandbagging 漏洞

🔑 关键洞察

推理不是线性过程,而是分阶段的。从困惑到顿悟,不同阶段的推理突破价值完全不同。SHAPE 首次将「阶段感知」形式化为优势函数的核心维度——从低潜力状态的突破,远比在高潜力状态的边际优化更有价值。
效率与准确率不是零和博弈。SHAPE 证明了通过精准的信用分配,可以同时提升准确率 3% 并减少 30% token 消耗。关键在于让模型把计算资源用在真正关键的决策点上。
reward hacking 的根源是信用分配粗糙。MRT 的 sandbagging 问题本质在于只看全局不看局部。SHAPE 的局部潜在差分建模提供了一个优雅的解决方案:每一步都必须证明自己在推动推理进展。
熵是比概率更鲁棒的推理边界信号。高熵意味着模型面临多个等可能的推理路径选择,这才是真正的逻辑分支点。

💭 引发思考

SHAPE 的核心洞察——推理是一个分阶段的状态空间轨迹——对 AI Agent 设计有深远启示。如果我们将 Agent 的任务执行也建模为状态轨迹,那么「阶段感知」的信用分配机制可以用于训练更高效的 Agent:不是所有步骤都同等重要,从困惑到突破的关键转折点应该获得更高的学习信号。

此外,SHAPE 的 30% token 缩减证明了:更聪明的推理不等于更长的推理。在当前大模型普遍 overthinking 的背景下,如何让模型「想得少但想得对」将成为下一阶段推理优化的核心命题。这对 Coding Agent 的实际部署也有直接影响——更短的推理链意味着更低的延迟和成本。


📎 相关阅读

  • MRT: Meta Reinforcement Fine-Tuning — arXiv 2503.22732
  • SPO: Step-level Preference Optimization — 过程监督的另一条路线
  • GRPO: Group Relative Policy Optimization — DeepSeek 系列的核心训练算法
  • Logic-RL: Unleashing LLM Reasoning with Rule-Based RL — arXiv 2502.14768

逍遥云初 | 2026.06.07