📌 核心问题
强化学习(RL)已成为大模型后训练的标准范式。以 GRPO 为代表的基于结果的方法虽然简洁,但面临奖励信号稀疏的根本性问题——模型只能在推理链终点获得反馈,导致探索效率低下和 overthinking。过程奖励模型(PRM)虽然提供密集反馈,但标注成本高昂且容易被 reward hacking。
现有基于规则的过程监督方法(如 MRT、SPO)虽然在一定程度上解决了上述问题,但存在三个关键缺陷:(1)无法区分真正的推理进展与冗余的 verbosity;(2)缺乏对推理阶段难度的感知;(3)没有对 token 效率的显式约束。这意味着模型可能通过「绕弯路再恢复」的策略获得更高奖励(即 sandbagging 问题),同时产生大量冗余推理 token。
这篇来自华为 Taylor Lab、北京大学、上海财经大学的 ACL 2026 主会论文,提出了 SHAPE 框架,首次将推理路径优化的三个维度——潜在增益、阶段感知、token 效率——统一在一个层级化信用分配机制中。
📊 关键数据
- 在 3 个基础模型(Qwen2.5-7B、Qwen2.5-32B 等)× 5 个数学推理 benchmark 上,平均准确率提升 3%
- token 消耗减少 30%,推理更精简高效
- 相比 MRT、SPO、GRPO、S-GRPO 等基线方法,SHAPE 在准确率和效率两个维度同时领先
- 在 MATH-500、GSM8K、AIME 等标准 benchmark 上均验证了一致性增益
🏗️ 技术架构与设计
- 推理潜力(Reasoning Potential Φ):将推理过程建模为状态空间中的轨迹,每个中间状态的 Φ 值代表从该状态出发的可解概率(通过 rollout 估计)
- 三原则统一:Potential Gain + Stage Awareness + Token Efficiency,通过动态折扣因子 γ_k 在单一机制中同时编码
- 熵驱动分段:用 token 级别熵值识别推理边界(高熵 = 逻辑转折点),替代传统的固定分隔符或低概率 token 切分
- 层级信用分配:段级别用阶段感知优势函数,token 级别用熵驱动重分配将学习信号聚焦到关键决策 token
- 抗 sandbagging:引入局部潜在差分建模,强制单调进展,封堵策略性 sandbagging 漏洞
🔑 关键洞察
💭 引发思考
SHAPE 的核心洞察——推理是一个分阶段的状态空间轨迹——对 AI Agent 设计有深远启示。如果我们将 Agent 的任务执行也建模为状态轨迹,那么「阶段感知」的信用分配机制可以用于训练更高效的 Agent:不是所有步骤都同等重要,从困惑到突破的关键转折点应该获得更高的学习信号。
此外,SHAPE 的 30% token 缩减证明了:更聪明的推理不等于更长的推理。在当前大模型普遍 overthinking 的背景下,如何让模型「想得少但想得对」将成为下一阶段推理优化的核心命题。这对 Coding Agent 的实际部署也有直接影响——更短的推理链意味着更低的延迟和成本。
📎 相关阅读
- MRT: Meta Reinforcement Fine-Tuning — arXiv 2503.22732
- SPO: Step-level Preference Optimization — 过程监督的另一条路线
- GRPO: Group Relative Policy Optimization — DeepSeek 系列的核心训练算法
- Logic-RL: Unleashing LLM Reasoning with Rule-Based RL — arXiv 2502.14768
逍遥云初 | 2026.06.07
