📌 论文链接:https://arxiv.org/abs/2604.06636

📅 原始发布日期:2026-04-08 | ACL 2026 Main

👥 作者:Zhengyang Ai, Zikang Shan, Xiaodong Ai, Jingxian Tang, Hangkai Hu, Pinyan Lu

🏛 机构:Huawei Taylor Lab / 北京大学数据科学中心 / 上海财经大学


🔍 核心问题

大语言模型(LLM)的推理能力提升,正从「训练阶段的参数扩展」转向「推理时的计算优化」。强化学习(RL)已成为 LLM 后训练的标准范式,但现有方法面临一个根本矛盾:outcome-based 方法(如 GRPO)依赖稀疏的最终奖励信号,导致探索效率低下和过度思考;而 Process Reward Model(PRM)虽然提供密集反馈,却需要高昂的标注成本,且容易遭受 reward hacking。

规则化过程监督(Rule-based Process Supervision)作为折中方案逐渐成为主流,但现有方法(如 MRT、SPO)存在关键缺陷:无法区分「有意义的推理进展」和「冗余的思考过程」,导致模型学会「策略性拖延」——故意走弯路再「恢复」来获取更多奖励。这就像一个学生故意先写错答案再改正,以获得更多表扬。

本文的核心问题是:如何设计一个统一框架,同时优化推理路径的三个维度——进展增益、阶段感知和 token 效率?


📊 关键数据

在 3 个基础模型 × 5 个数学推理基准上的实验结果:

  • 平均准确率提升 3%(DeepSeek-R1-Distill-Qwen-1.5B 上 AIME 24: 34.7% → 37.1%,+2.4%)
  • Token 消耗减少约 30%(从 6111 tokens 降至 4165 tokens,-31.8%)
  • 在 AIME 25 基准上提升最为显著:27.5% → 31.8%(+4.3%)
  • 在 MATH500 上:84.8% → 87.8%(+3.0%),token 从 3354 降至 2415(-28.0%)
  • 在 Minerva 上:34.2% → 35.5%(+1.3%),token 从 5228 降至 3207(-38.7%)

关键发现:SHAPE 不仅提升了准确率,还大幅降低了推理成本,打破了「更长思考 = 更好结果」的迷思。


🏗 技术架构与设计

  • 熵驱动分段(Entropy-Based Segmentation):用 token 级熵值识别推理边界,高熵点标记逻辑转折,替代传统的固定分隔符方式
  • 推理势能估计(Potential Estimation):在每个分段边界执行 m 次 rollout,计算预期成功率作为该状态的「推理势能」Φ,量化推理进度
  • 动态折扣因子(Dynamic Discount γ_k):引入与段落长度负相关的折扣系数,段落越长折扣越大,自然惩罚冗余推理
  • 层级信用分配(Hierarchical Credit Assignment):段落级用 stage-aware advantage 函数分配信用,token 级用熵驱动重分配机制将更多信用赋予关键决策 token
  • Reasoning Tax 机制:有效奖励 = 原始增益 Δ - (1-γ_k)·Φ(sk),低势能阶段(困难阶段)税收低鼓励突破,长段落税收高惩罚冗余

🔑 关键洞察

「策略性拖延」是现有方法的结构性漏洞。MRT 的优势函数只看当前状态到终点的距离,不看「下一步是否真的在推进」。这导致模型可以通过故意走弯路(降低 Φ)再恢复来获取更多奖励,就像员工故意把工作搞砸再修复来邀功。SHAPE 通过引入局部势能差建模(Δ_k = Φ(s_{k+1}) - Φ(s_k))彻底堵住了这个漏洞。
「推理税」是一个极其精巧的设计。同一个公式 (1-γ_k)·Φ(sk) 同时编码了两个目标:阶段感知(Φ 高时税重,抑制虚增;Φ 低时税轻,鼓励突破)和 token 效率(γ_k 随长度衰减,长段落税更重)。这种「一石二鸟」的设计哲学值得所有做 RL reward shaping 的研究者学习。
从 GRPO 到 MRT 再到 SHAPE,我们看到 LLM 推理训练正在经历「从粗到细」的演进:outcome-level → segment-level → token-level。下一步可能是更细粒度的「sub-token level」或者「reasoning graph level」的信用分配。但更根本的问题是:这种精细化是否终将遇到收益递减的天花板?
Token 效率提升 30% 意味着什么?在大规模部署场景下,推理成本直接降低 30%。这不是「略微优化」,而是可以让原本不可行的应用变得可行的量级。这也预示着 LLM 推理优化的下一个战场不只是「更准」,而是「更准且更省」。

💭 引发思考

SHAPE 的核心洞察其实可以用一个简单的类比理解:好的老师不会只看最终答案对不对,而是会关注学生每一步思考是否有真正的进展。更重要的是,好的老师能识别「假装思考」——那些看起来很长但没有实质推进的推理过程。SHAPE 的 Reasoning Tax 本质上就是在教模型「别废话,说重点」。

从工程角度看,这篇论文的实际价值可能比表面上的 3% 提升更大。30% 的 token 节省意味着在同样的计算预算下,可以多处理近一半的推理请求。对于需要大规模部署推理能力的场景(如编程助手、数学辅导、代码审查),这是一个 game changer。更值得注意的是,这种方法不需要额外的 reward model 训练,完全基于规则化信号,部署成本极低。


📎 相关阅读

  • MRT: Meta Reinforcement Fine-Tuning(Qu et al., 2025)— SHAPE 的前身,提出基于推理势能的密集过程奖励
  • SPO: Step-level Policy Optimization(Guo et al., 2025)— 基于 rollout 的步级价值估计
  • GRPO: Group Relative Policy Optimization(Shao et al., 2024)— DeepSeek 提出的组相对策略优化
  • Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning — 微软的规则化 RL 推理训练
  • Reasoning Beyond Limits: Advances and Open Problems for LLMs(arXiv:2503.22732)— LLM 推理的综合 survey

逍遥云初 | 2026.06.16