RLVR 在数学和代码上已经证明威力,但通用推理仍是短板。UCLA 团队发现:把已有的人类标注数据「重新策展」给 RLVR,比合成新数据更有效——因为专家标注中已经蕴含了丰富的推理模式。

论文信息:arXiv 2604.08477 | UCLA 团队 | 2026-04-09 | 开源:github.com/asuvarna31/supernova


📌 核心问题:RLVR 为什么卡在通用推理上?

RLVR(Reinforcement Learning with Verifiable Rewards)在数学和代码推理上取得了巨大进步。DeepSeek R1 用 GRPO(Group Relative Policy Optimization)在数学推理上实现了突破,OpenReasoner 等工作也在 STEM 领域验证了 RLVR 的威力。然而,通用推理——因果推理、时间理解、空间推理——仍然很弱。

问题的根源在于:数学和代码有明确的 ground-truth(正确答案),而通用推理没有。这导致 RLVR 的奖励信号只能在 STEM 领域有效工作。UCLA 团队发现了一个关键数据:STEM 推理训练 +50%,但通用推理 -8%——零迁移。

OpenReasoner-7B 在 AIME24 上提升 50%,但在 BBEH(BIG-Bench Extra Hard)上下降 8%。STEM 推理能力几乎不迁移到通用推理。

🔥 SuperNova 框架:三步走

SuperNova 的核心思路不是发明新算法,而是用更聪明的数据策展(Data Curation)来扩展现有 RLVR 的能力边界。整个框架分为三步:

Step 1:任务选择 — 选什么比学多少重要

  • 从 SuperNI 1600 个任务中选取 83 个候选任务
  • 将开放任务重排为可验证格式(如转为多选题),使 RLVR 的奖励信号可用
  • 过滤太容易(win-rate=1)或太难(win-rate=0)的题目,保留有学习价值的样本
  • 计算每个任务的 utility score——用目标下游任务表现来衡量,而非语义相似度
  • 83 个候选任务中,最好任务(task738-perspectrum)比最差任务(task213-rocstories)高 7.6 个百分点
  • 发现:多跳推理任务对通用推理提升最大

Step 2:任务混合 — Micro > Macro

  • Macro Mixing:按整体平均性能选 top-N 任务
  • Micro Mixing:为每个下游子任务单独选 top-N 任务——保留了多样化推理能力覆盖
  • 结论:Micro Mixing 始终优于 Macro Mixing
  • 混合 2 个任务最优(不是越多越好)——多样性有上限,混合太多会稀释特定推理能力
  • 最佳混合:Top 2 tasks + Micro Mixing = 22.8% pass@8

Step 3:合成数据干预 — 不如原生数据

  • 尝试了长上下文依赖、反直觉(Going Against Prior)、大海捞针等干预策略
  • 结论:在固定训练预算下,人工干预不提升性能
  • 原始数据反而最优——人工标注已经编码了足够丰富的推理结构,合成干预反而引入了噪声

⚡ 关键数据与结果

SuperNova-4B 的核心指标:

  • BBEH-test pass@1 提升 29.4%,pass@8 提升 42.9%
  • SuperNova-4B(4B 参数)超越 Qwen3-8B(8B 参数)8.2% on pass@8
  • 跨基准泛化:BBH + MMLU-Pro + Zebralogic 上 pass@8 整体提升 12.3%
  • 仅需 25K RLVR 样本(不是越多越好)

模型对比


🔑 关键洞察

1. 数据策展 > 数据堆砌

83 个任务里,只有少数几个对通用推理有正向贡献。选对任务比多喂数据重要得多。

2. STEM 推理能力不迁移

这是一个重要的反直觉发现:数学推理 +50% 不等于通用推理也 +50%。原因可能是数学推理更依赖模式匹配,而通用推理需要因果、时间、空间等多样化能力。

3. 人工标注是被低估的宝藏

SuperNI、FLAN 等指令调优数据集已经被广泛使用过,但从未被系统地用于 RLVR。专家标注中蕴含的推理结构比合成数据更有价值。

4. Pass@8 的区分力远大于 pass@1

研究发现 pass@8 的区分力是 pass@1 的 2.5 倍(σ: 0.76 → 1.92)。这意味着测试时计算(test-time compute)对 RLVR 训练的模型尤其有效。

🎯 引发思考

  • 对训练的启示:RLVR 的下一个突破口不是更复杂的算法,而是更聪明的数据策展
  • 对开源的启示:现有指令调优数据集(SuperNI 1600 个任务、FLAN 数千个任务)中还有大量未被 RLVR 利用的推理模式
  • 对 Agent 的启示:通用推理是 AI Agent 处理现实世界问题的核心能力,SUPERNOVA 提供了一条可行路径
  • 25K 就够了:这颠覆了「数据越多越好」的信仰。精准的 25K 样本 > 盲目的 100K 噪声数据

📖 相关阅读

  • arXiv:2604.08477 — SuperNova 论文
  • DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — GRPO 原始论文
  • SuperNI: Super-NaturalInstructions — 数据源(1600+ NLP Tasks)
  • BBEH: BIG-Bench Extra Hard — 基准测试
  • General Reasoner: Scaling RL with Verifiable Rewards to Domains Beyond Math and Code — 相关工作

逍遥云初 | 2026.04.11