Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key
📄 论文链接:arxiv.org/abs/2605.06638
🏛️ 机构:Purdue University · UNC Chapel Hill · Georgia Tech · UC San Diego 📅 提交日期:2026 年 5 月 7 日
📌 核心问题:RL 能教会 LLM 长程推理吗?
强化学习(RL)已被广泛用于提升大语言模型的推理能力——DeepSeek-R1、OpenAI o1 等模型都通过 RL 后训练在数学和编程基准上取得了显著进步。然而,一个核心问题始终悬而未决:当推理任务需要更多步骤时,模型的表现为何会急剧下降?即使每个子问题本身并不难,长程推理的失败率仍然很高。
根本原因在于,此前缺乏一个可控制、可扩展的训练环境来系统研究 RL 训练如何随任务难度缩放。现有的数学和编程数据集虽然可验证,但无法精确控制推理深度和逻辑复杂度;合成任务(如 Knights and Knaves、SAT)则无法同时控制推理步数和逻辑表达力。
本文提出了 ScaleLogic——一个合成逻辑推理框架,首次实现了对两个关键难度维度的独立控制:推理规划深度(horizon)和底层逻辑的表达力(expressiveness)。利用这个框架,作者揭示了 RL 训练计算量与推理深度之间的幂律关系,以及逻辑表达力对下游迁移的决定性影响。
📊 关键数据:幂律缩放与下游迁移
幂律缩放关系(R² > 0.99):RL 训练计算量 T 与推理深度 D 满足 T ∝ D^γ,其中 γ 随逻辑表达力单调递增:
- 仅蕴含(Implication-only):γ = 1.04 ± 0.03(近线性,每多一步约增加 2× 计算)
- + 合取(Conjunction):γ = 1.72 ± 0.08
- + 否定(Negation):γ = 1.81 ± 0.05
- + 全称量化(Quantification):γ = 2.60 ± 0.06(最富表达力,深度翻倍需约 6× 计算)
下游迁移基准(8 个:AIME 2024/2025、AMC 2023、MATH-500、Minerva、OlympiadBench、GPQA-Diamond、MMLU-Pro STEM):
- 基础模型平均准确率:49.39%
- + Quantification 训练后达到 60.05%(+10.66 个百分点),在 414 步训练后持续提升
- 仅蕴含(Implication-only)训练后仅提升约 2-3 个百分点即停滞
- 控制变量实验:固定深度 D=12 时,+ Quantification 比仅蕴含多带来 +8.10 点增益
🏗️ 技术架构与设计
- ScaleLogic 框架:合成逻辑推理环境,支持从简单 if-then 到一阶逻辑(合取、否定、析取、全称量化)的五级表达力层次,每级可独立控制推理深度
- 问题生成:反向构建证明树 → 多选项组装 → 自然语言转换,通过 Z3 SMT 求解器验证逻辑正确性
- RL 框架:基于 DAPO(GRPO 扩展),每 prompt 采样 8 个 completion,使用可验证奖励信号
- 课程学习(Curriculum):从浅到深渐进训练,将 + Quantification 的缩放指数从 2.60 降至 2.30,加速长链推理行为涌现
- 跨算法验证:DAPO、GRPO、GSPO 三种 RL 算法均呈现幂律缩放(R² > 0.99),证明该规律非特定优化器的伪影
🔑 关键洞察
💭 引发思考
这项研究对当前 RL 后训练范式提出了一个根本性问题:我们是否在用正确的方式训练推理能力?目前主流做法是在数学和编程数据上做 RLVR(RL with Verifiable Rewards),但 ScaleLogic 的实验表明,训练数据的逻辑结构——而非数量——才是决定下游迁移效果的关键变量。这暗示,精心设计的合成推理数据可能比海量的自然数学题更有效。
更深层地看,幂律缩放的发现为「为什么有些 RL 训练比其他的更高效」提供了一个可量化的解释框架。逻辑表达力改变了缩放指数这一事实表明,推理能力的获取成本本质上取决于目标推理结构的组合复杂度。这对未来大规模 RL 训练的资源规划、课程设计、甚至模型架构选择都有直接指导意义。从工程实践角度,课程学习的显著收益是一个立即可用的优化手段。
📎 相关阅读
- Enigmata: Scaling Logical Reasoning in LLMs with Synthetic Verifiable Puzzles (arXiv:2505.19914)
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL (Guo et al., 2025a)
- DAPO: An Open-Source LLM Reinforcement Learning System (Yu et al., 2025)
逍遥云初 | 2026.05.10






