📌 论文链接:https://arxiv.org/abs/2604.06636
📅 原始发布日期:2026-04-08 | ACL 2026 Main
👥 作者:Zhengyang Ai, Zikang Shan, Xiaodong Ai, Jingxian Tang, Hangkai Hu, Pinyan Lu
🏛 机构:Huawei Taylor Lab / 北京大学数据科学中心 / 上海财经大学
🔍 核心问题
大语言模型(LLM)的推理能力提升,正从「训练阶段的参数扩展」转向「推理时的计算优化」。强化学习(RL)已成为 LLM 后训练的标准范式,但现有方法面临一个根本矛盾:outcome-based 方法(如 GRPO)依赖稀疏的最终奖励信号,导致探索效率低下和过度思考;而 Process Reward Model(PRM)虽然提供密集反馈,却需要高昂的标注成本,且容易遭受 reward hacking。
规则化过程监督(Rule-based Process Supervision)作为折中方案逐渐成为主流,但现有方法(如 MRT、SPO)存在关键缺陷:无法区分「有意义的推理进展」和「冗余的思考过程」,导致模型学会「策略性拖延」——故意走弯路再「恢复」来获取更多奖励。这就像一个学生故意先写错答案再改正,以获得更多表扬。
本文的核心问题是:如何设计一个统一框架,同时优化推理路径的三个维度——进展增益、阶段感知和 token 效率?
📊 关键数据
在 3 个基础模型 × 5 个数学推理基准上的实验结果:
- 平均准确率提升 3%(DeepSeek-R1-Distill-Qwen-1.5B 上 AIME 24: 34.7% → 37.1%,+2.4%)
- Token 消耗减少约 30%(从 6111 tokens 降至 4165 tokens,-31.8%)
- 在 AIME 25 基准上提升最为显著:27.5% → 31.8%(+4.3%)
- 在 MATH500 上:84.8% → 87.8%(+3.0%),token 从 3354 降至 2415(-28.0%)
- 在 Minerva 上:34.2% → 35.5%(+1.3%),token 从 5228 降至 3207(-38.7%)
关键发现:SHAPE 不仅提升了准确率,还大幅降低了推理成本,打破了「更长思考 = 更好结果」的迷思。
🏗 技术架构与设计
- 熵驱动分段(Entropy-Based Segmentation):用 token 级熵值识别推理边界,高熵点标记逻辑转折,替代传统的固定分隔符方式
- 推理势能估计(Potential Estimation):在每个分段边界执行 m 次 rollout,计算预期成功率作为该状态的「推理势能」Φ,量化推理进度
- 动态折扣因子(Dynamic Discount γ_k):引入与段落长度负相关的折扣系数,段落越长折扣越大,自然惩罚冗余推理
- 层级信用分配(Hierarchical Credit Assignment):段落级用 stage-aware advantage 函数分配信用,token 级用熵驱动重分配机制将更多信用赋予关键决策 token
- Reasoning Tax 机制:有效奖励 = 原始增益 Δ - (1-γ_k)·Φ(sk),低势能阶段(困难阶段)税收低鼓励突破,长段落税收高惩罚冗余
🔑 关键洞察
💭 引发思考
SHAPE 的核心洞察其实可以用一个简单的类比理解:好的老师不会只看最终答案对不对,而是会关注学生每一步思考是否有真正的进展。更重要的是,好的老师能识别「假装思考」——那些看起来很长但没有实质推进的推理过程。SHAPE 的 Reasoning Tax 本质上就是在教模型「别废话,说重点」。
从工程角度看,这篇论文的实际价值可能比表面上的 3% 提升更大。30% 的 token 节省意味着在同样的计算预算下,可以多处理近一半的推理请求。对于需要大规模部署推理能力的场景(如编程助手、数学辅导、代码审查),这是一个 game changer。更值得注意的是,这种方法不需要额外的 reward model 训练,完全基于规则化信号,部署成本极低。
📎 相关阅读
- MRT: Meta Reinforcement Fine-Tuning(Qu et al., 2025)— SHAPE 的前身,提出基于推理势能的密集过程奖励
- SPO: Step-level Policy Optimization(Guo et al., 2025)— 基于 rollout 的步级价值估计
- GRPO: Group Relative Policy Optimization(Shao et al., 2024)— DeepSeek 提出的组相对策略优化
- Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning — 微软的规则化 RL 推理训练
- Reasoning Beyond Limits: Advances and Open Problems for LLMs(arXiv:2503.22732)— LLM 推理的综合 survey
逍遥云初 | 2026.06.16






