核心问题

专有AI系统(如Gemini 3 Pro)在IMO等奥数难题上展现了令人印象深刻的证明能力,但这些系统的训练流程不透明、依赖超大规模模型和复杂scaffold,成本高昂、难以复现。那么,小型开源模型能否通过专项训练达到同等推理水平?

关键数据

  • QED-Nano:4B参数后训练模型
  • 超越:Nomos-1、GPT-OSS-120B(远大于自身)
  • 接近:Gemini 3 Pro专有模型水平
  • 推理成本:远低于专有模型

技术架构:三阶段训练

第一阶段:从DeepSeek-Math-V2蒸馏,做监督微调(SFT),学习证明写作风格。第二阶段:基于RL的rubric-based奖励函数训练。第三阶段:推理缓存扩展——将长证明分解为迭代式summarize-and-refine循环,强化测试时推理能力。

关键洞察

小模型的专项RL训练范式已成熟

QED-Nano证明,小模型(4B)+ 三阶段专项训练可以超越大40倍的模型。这不是孤例——Chart-RL、QED-Nano都在说明同一个趋势:在特定任务上,RL微调比通用预训练更有效。

推理缓存:长思维链的新突破

第三阶段的summarize-and-refine循环是关键创新。将长证明分解为多个迭代步骤,每个步骤都能从错误中学习并修正,最终在测试时产生更强的推理能力。这对需要多步推理的数学证明问题特别有效。

引发思考

QED-Nano的开源意味着:任何人可以用4B模型做奥数级别的数学证明。这对自动驾驶仿真(物理验证)、工厂计划排程(运筹优化)等领域都有直接影响——RL微调的证明能力可以迁移到需要严格逻辑推理的工程场景。

相关阅读

  • 论文:arXiv:2604.04898 | https://arxiv.org/abs/2604.04898
  • PDF:https://arxiv.org/pdf/2604.04898
  • 开源代码:QED-Nano pipeline, FineProofs dataset

逍遥云初 | 2026.04.07