SUPERNOVA：用数据策展把 RLVR 从数学/代码扩展到通用推理

RLVR 在数学和代码上已经证明威力，但通用推理仍是短板。UCLA 团队发现：把已有的人类标注数据「重新策展」给 RLVR，比合成新数据更有效——因为专家标注中已经蕴含了丰富的推理模式。

论文信息：arXiv 2604.08477 | UCLA 团队 | 2026-04-09 | 开源：github.com/asuvarna31/supernova

📌 核心问题：RLVR 为什么卡在通用推理上？

RLVR（Reinforcement Learning with Verifiable Rewards）在数学和代码推理上取得了巨大进步。DeepSeek R1 用 GRPO（Group Relative Policy Optimization）在数学推理上实现了突破，OpenReasoner 等工作也在 STEM 领域验证了 RLVR 的威力。然而，通用推理——因果推理、时间理解、空间推理——仍然很弱。

问题的根源在于：数学和代码有明确的 ground-truth（正确答案），而通用推理没有。这导致 RLVR 的奖励信号只能在 STEM 领域有效工作。UCLA 团队发现了一个关键数据：STEM 推理训练 +50%，但通用推理 -8%——零迁移。

OpenReasoner-7B 在 AIME24 上提升 50%，但在 BBEH（BIG-Bench Extra Hard）上下降 8%。STEM 推理能力几乎不迁移到通用推理。

🔥 SuperNova 框架：三步走

SuperNova 的核心思路不是发明新算法，而是用更聪明的数据策展（Data Curation）来扩展现有 RLVR 的能力边界。整个框架分为三步：

Step 1：任务选择 — 选什么比学多少重要

从 SuperNI 1600 个任务中选取 83 个候选任务
将开放任务重排为可验证格式（如转为多选题），使 RLVR 的奖励信号可用
过滤太容易（win-rate=1）或太难（win-rate=0）的题目，保留有学习价值的样本
计算每个任务的 utility score——用目标下游任务表现来衡量，而非语义相似度
83 个候选任务中，最好任务（task738-perspectrum）比最差任务（task213-rocstories）高 7.6 个百分点
发现：多跳推理任务对通用推理提升最大

Step 2：任务混合 — Micro > Macro

Macro Mixing：按整体平均性能选 top-N 任务
Micro Mixing：为每个下游子任务单独选 top-N 任务——保留了多样化推理能力覆盖
结论：Micro Mixing 始终优于 Macro Mixing
混合 2 个任务最优（不是越多越好）——多样性有上限，混合太多会稀释特定推理能力
最佳混合：Top 2 tasks + Micro Mixing = 22.8% pass@8

Step 3：合成数据干预 — 不如原生数据

尝试了长上下文依赖、反直觉（Going Against Prior）、大海捞针等干预策略
结论：在固定训练预算下，人工干预不提升性能
原始数据反而最优——人工标注已经编码了足够丰富的推理结构，合成干预反而引入了噪声

⚡ 关键数据与结果

SuperNova-4B 的核心指标：

BBEH-test pass@1 提升 29.4%，pass@8 提升 42.9%
SuperNova-4B（4B 参数）超越 Qwen3-8B（8B 参数）8.2% on pass@8
跨基准泛化：BBH + MMLU-Pro + Zebralogic 上 pass@8 整体提升 12.3%
仅需 25K RLVR 样本（不是越多越好）

模型对比

🔑 关键洞察

1. 数据策展 > 数据堆砌

83 个任务里，只有少数几个对通用推理有正向贡献。选对任务比多喂数据重要得多。

2. STEM 推理能力不迁移

这是一个重要的反直觉发现：数学推理 +50% 不等于通用推理也 +50%。原因可能是数学推理更依赖模式匹配，而通用推理需要因果、时间、空间等多样化能力。

3. 人工标注是被低估的宝藏

SuperNI、FLAN 等指令调优数据集已经被广泛使用过，但从未被系统地用于 RLVR。专家标注中蕴含的推理结构比合成数据更有价值。

4. Pass@8 的区分力远大于 pass@1

研究发现 pass@8 的区分力是 pass@1 的 2.5 倍（σ: 0.76 → 1.92）。这意味着测试时计算（test-time compute）对 RLVR 训练的模型尤其有效。

🎯 引发思考

对训练的启示：RLVR 的下一个突破口不是更复杂的算法，而是更聪明的数据策展
对开源的启示：现有指令调优数据集（SuperNI 1600 个任务、FLAN 数千个任务）中还有大量未被 RLVR 利用的推理模式
对 Agent 的启示：通用推理是 AI Agent 处理现实世界问题的核心能力，SUPERNOVA 提供了一条可行路径
25K 就够了：这颠覆了「数据越多越好」的信仰。精准的 25K 样本 > 盲目的 100K 噪声数据

📖 相关阅读

arXiv:2604.08477 — SuperNova 论文
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning — GRPO 原始论文
SuperNI: Super-NaturalInstructions — 数据源（1600+ NLP Tasks）
BBEH: BIG-Bench Extra Hard — 基准测试
General Reasoner: Scaling RL with Verifiable Rewards to Domains Beyond Math and Code — 相关工作

逍遥云初 | 2026.04.11

SUPERNOVA：用数据策展把 RLVR 从数学/代码扩展到通用推理

📌 核心问题：RLVR 为什么卡在通用推理上？

🔥 SuperNova 框架：三步走

Step 1：任务选择 — 选什么比学多少重要

Step 2：任务混合 — Micro > Macro

Step 3：合成数据干预 — 不如原生数据

⚡ 关键数据与结果

模型对比

🔑 关键洞察

1. 数据策展 > 数据堆砌

2. STEM 推理能力不迁移

3. 人工标注是被低估的宝藏

4. Pass@8 的区分力远大于 pass@1

🎯 引发思考

📖 相关阅读

推荐好物

相关文章

SUPERNOVA：用数据策展把 RLVR 从数学/代码扩展到通用推理

📌 核心问题：RLVR 为什么卡在通用推理上？

🔥 SuperNova 框架：三步走

Step 1：任务选择 — 选什么比学多少重要

Step 2：任务混合 — Micro > Macro

Step 3：合成数据干预 — 不如原生数据

⚡ 关键数据与结果

模型对比

🔑 关键洞察

1. 数据策展 > 数据堆砌

2. STEM 推理能力不迁移

3. 人工标注是被低估的宝藏

4. Pass@8 的区分力远大于 pass@1

🎯 引发思考

📖 相关阅读

推荐好物

语言产品特惠

云产品精品福利

母婴

相关文章

ETH Zurich：你的 AGENTS.md 可能让 AI Agent 变笨 3% 且多花 20% 算力

字节跳动加速自研CPU：2027年下半年量产，AI基建全面自主化

OpenAI AI 模型推翻 Erdős 单位距离猜想：80 年数学难题的 AI 解法