Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

📄 论文链接：arxiv.org/abs/2605.06638

🏛️ 机构：Purdue University · UNC Chapel Hill · Georgia Tech · UC San Diego 📅 提交日期：2026 年 5 月 7 日

📌 核心问题：RL 能教会 LLM 长程推理吗？

强化学习（RL）已被广泛用于提升大语言模型的推理能力——DeepSeek-R1、OpenAI o1 等模型都通过 RL 后训练在数学和编程基准上取得了显著进步。然而，一个核心问题始终悬而未决：当推理任务需要更多步骤时，模型的表现为何会急剧下降？即使每个子问题本身并不难，长程推理的失败率仍然很高。

根本原因在于，此前缺乏一个可控制、可扩展的训练环境来系统研究 RL 训练如何随任务难度缩放。现有的数学和编程数据集虽然可验证，但无法精确控制推理深度和逻辑复杂度；合成任务（如 Knights and Knaves、SAT）则无法同时控制推理步数和逻辑表达力。

本文提出了 ScaleLogic——一个合成逻辑推理框架，首次实现了对两个关键难度维度的独立控制：推理规划深度（horizon）和底层逻辑的表达力（expressiveness）。利用这个框架，作者揭示了 RL 训练计算量与推理深度之间的幂律关系，以及逻辑表达力对下游迁移的决定性影响。

📊 关键数据：幂律缩放与下游迁移

幂律缩放关系（R² > 0.99）：RL 训练计算量 T 与推理深度 D 满足 T ∝ D^γ，其中 γ 随逻辑表达力单调递增：

仅蕴含（Implication-only）：γ = 1.04 ± 0.03（近线性，每多一步约增加 2× 计算）
+ 合取（Conjunction）：γ = 1.72 ± 0.08
+ 否定（Negation）：γ = 1.81 ± 0.05
+ 全称量化（Quantification）：γ = 2.60 ± 0.06（最富表达力，深度翻倍需约 6× 计算）

下游迁移基准（8 个：AIME 2024/2025、AMC 2023、MATH-500、Minerva、OlympiadBench、GPQA-Diamond、MMLU-Pro STEM）：

基础模型平均准确率：49.39%
+ Quantification 训练后达到 60.05%（+10.66 个百分点），在 414 步训练后持续提升
仅蕴含（Implication-only）训练后仅提升约 2-3 个百分点即停滞
控制变量实验：固定深度 D=12 时，+ Quantification 比仅蕴含多带来 +8.10 点增益

🏗️ 技术架构与设计

ScaleLogic 框架：合成逻辑推理环境，支持从简单 if-then 到一阶逻辑（合取、否定、析取、全称量化）的五级表达力层次，每级可独立控制推理深度
问题生成：反向构建证明树 → 多选项组装 → 自然语言转换，通过 Z3 SMT 求解器验证逻辑正确性
RL 框架：基于 DAPO（GRPO 扩展），每 prompt 采样 8 个 completion，使用可验证奖励信号
课程学习（Curriculum）：从浅到深渐进训练，将 + Quantification 的缩放指数从 2.60 降至 2.30，加速长链推理行为涌现
跨算法验证：DAPO、GRPO、GSPO 三种 RL 算法均呈现幂律缩放（R² > 0.99），证明该规律非特定优化器的伪影

🔑 关键洞察

🔑 训练什么比训练多少更重要这是本文最核心的发现。在固定训练计算量下，+ Quantification 设置比仅蕴含设置多带来 +6.33 点下游增益。这意味着，选择更有表达力的训练数据，比单纯增加训练步数更能提升推理能力。这对 RL 后训练的数据策展策略具有深远启示——不是越多越好，而是越有结构越好。

🔑 推理深度的泛化有明确边界即使在最大深度（D=14）训练的模型，在测试深度达到约 3 倍训练深度时也会退化到随机水平。这意味着 RL 训练扩展了模型的「有效推理视野」，但这种扩展是线性的——要解决 3 倍难的问题，需要约 3 倍深的训练。没有免费的午餐。

🔑 课程学习是缩放效率的关键杠杆渐进式课程训练将 + Quantification 的缩放指数从 2.60 降至 2.30，同时加速了长链推理行为的涌现。在课程训练下，不同深度的长 CoT 行为几乎同步涌现；而在均匀或纯困难训练下，涌现被严重延迟且不规律。浅层实例为学习推理模式提供了更平滑的启动路径。

💭 引发思考

这项研究对当前 RL 后训练范式提出了一个根本性问题：我们是否在用正确的方式训练推理能力？目前主流做法是在数学和编程数据上做 RLVR（RL with Verifiable Rewards），但 ScaleLogic 的实验表明，训练数据的逻辑结构——而非数量——才是决定下游迁移效果的关键变量。这暗示，精心设计的合成推理数据可能比海量的自然数学题更有效。

更深层地看，幂律缩放的发现为「为什么有些 RL 训练比其他的更高效」提供了一个可量化的解释框架。逻辑表达力改变了缩放指数这一事实表明，推理能力的获取成本本质上取决于目标推理结构的组合复杂度。这对未来大规模 RL 训练的资源规划、课程设计、甚至模型架构选择都有直接指导意义。从工程实践角度，课程学习的显著收益是一个立即可用的优化手段。

📎 相关阅读

Enigmata: Scaling Logical Reasoning in LLMs with Synthetic Verifiable Puzzles (arXiv:2505.19914)
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL (Guo et al., 2025a)
DAPO: An Open-Source LLM Reinforcement Learning System (Yu et al., 2025)

逍遥云初 | 2026.05.10

Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key — ScaleLogic 揭示 RL 训练的幂律缩放与逻辑表达力的关键作用