Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

📄 论文链接:arxiv.org/abs/2605.06638

🏛️ 机构:Purdue University · UNC Chapel Hill · Georgia Tech · UC San Diego 📅 提交日期:2026 年 5 月 7 日


📌 核心问题:RL 能教会 LLM 长程推理吗?

强化学习(RL)已被广泛用于提升大语言模型的推理能力——DeepSeek-R1、OpenAI o1 等模型都通过 RL 后训练在数学和编程基准上取得了显著进步。然而,一个核心问题始终悬而未决:当推理任务需要更多步骤时,模型的表现为何会急剧下降?即使每个子问题本身并不难,长程推理的失败率仍然很高。

根本原因在于,此前缺乏一个可控制、可扩展的训练环境来系统研究 RL 训练如何随任务难度缩放。现有的数学和编程数据集虽然可验证,但无法精确控制推理深度和逻辑复杂度;合成任务(如 Knights and Knaves、SAT)则无法同时控制推理步数和逻辑表达力。

本文提出了 ScaleLogic——一个合成逻辑推理框架,首次实现了对两个关键难度维度的独立控制:推理规划深度(horizon)和底层逻辑的表达力(expressiveness)。利用这个框架,作者揭示了 RL 训练计算量与推理深度之间的幂律关系,以及逻辑表达力对下游迁移的决定性影响。


📊 关键数据:幂律缩放与下游迁移

幂律缩放关系(R² > 0.99):RL 训练计算量 T 与推理深度 D 满足 T ∝ D^γ,其中 γ 随逻辑表达力单调递增:

  • 仅蕴含(Implication-only):γ = 1.04 ± 0.03(近线性,每多一步约增加 2× 计算)
  • + 合取(Conjunction):γ = 1.72 ± 0.08
  • + 否定(Negation):γ = 1.81 ± 0.05
  • + 全称量化(Quantification):γ = 2.60 ± 0.06(最富表达力,深度翻倍需约 6× 计算)

下游迁移基准(8 个:AIME 2024/2025、AMC 2023、MATH-500、Minerva、OlympiadBench、GPQA-Diamond、MMLU-Pro STEM):

  • 基础模型平均准确率:49.39%
  • + Quantification 训练后达到 60.05%(+10.66 个百分点),在 414 步训练后持续提升
  • 仅蕴含(Implication-only)训练后仅提升约 2-3 个百分点即停滞
  • 控制变量实验:固定深度 D=12 时,+ Quantification 比仅蕴含多带来 +8.10 点增益

🏗️ 技术架构与设计

  • ScaleLogic 框架:合成逻辑推理环境,支持从简单 if-then 到一阶逻辑(合取、否定、析取、全称量化)的五级表达力层次,每级可独立控制推理深度
  • 问题生成:反向构建证明树 → 多选项组装 → 自然语言转换,通过 Z3 SMT 求解器验证逻辑正确性
  • RL 框架:基于 DAPO(GRPO 扩展),每 prompt 采样 8 个 completion,使用可验证奖励信号
  • 课程学习(Curriculum):从浅到深渐进训练,将 + Quantification 的缩放指数从 2.60 降至 2.30,加速长链推理行为涌现
  • 跨算法验证:DAPO、GRPO、GSPO 三种 RL 算法均呈现幂律缩放(R² > 0.99),证明该规律非特定优化器的伪影

🔑 关键洞察

🔑 训练什么比训练多少更重要 这是本文最核心的发现。在固定训练计算量下,+ Quantification 设置比仅蕴含设置多带来 +6.33 点下游增益。这意味着,选择更有表达力的训练数据,比单纯增加训练步数更能提升推理能力。这对 RL 后训练的数据策展策略具有深远启示——不是越多越好,而是越有结构越好。
🔑 推理深度的泛化有明确边界 即使在最大深度(D=14)训练的模型,在测试深度达到约 3 倍训练深度时也会退化到随机水平。这意味着 RL 训练扩展了模型的「有效推理视野」,但这种扩展是线性的——要解决 3 倍难的问题,需要约 3 倍深的训练。没有免费的午餐。
🔑 课程学习是缩放效率的关键杠杆 渐进式课程训练将 + Quantification 的缩放指数从 2.60 降至 2.30,同时加速了长链推理行为的涌现。在课程训练下,不同深度的长 CoT 行为几乎同步涌现;而在均匀或纯困难训练下,涌现被严重延迟且不规律。浅层实例为学习推理模式提供了更平滑的启动路径。

💭 引发思考

这项研究对当前 RL 后训练范式提出了一个根本性问题:我们是否在用正确的方式训练推理能力?目前主流做法是在数学和编程数据上做 RLVR(RL with Verifiable Rewards),但 ScaleLogic 的实验表明,训练数据的逻辑结构——而非数量——才是决定下游迁移效果的关键变量。这暗示,精心设计的合成推理数据可能比海量的自然数学题更有效。

更深层地看,幂律缩放的发现为「为什么有些 RL 训练比其他的更高效」提供了一个可量化的解释框架。逻辑表达力改变了缩放指数这一事实表明,推理能力的获取成本本质上取决于目标推理结构的组合复杂度。这对未来大规模 RL 训练的资源规划、课程设计、甚至模型架构选择都有直接指导意义。从工程实践角度,课程学习的显著收益是一个立即可用的优化手段。


📎 相关阅读

  • Enigmata: Scaling Logical Reasoning in LLMs with Synthetic Verifiable Puzzles (arXiv:2505.19914)
  • DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL (Guo et al., 2025a)
  • DAPO: An Open-Source LLM Reinforcement Learning System (Yu et al., 2025)

逍遥云初 | 2026.05.10