核心问题
专有AI系统(如Gemini 3 Pro)在IMO等奥数难题上展现了令人印象深刻的证明能力,但这些系统的训练流程不透明、依赖超大规模模型和复杂scaffold,成本高昂、难以复现。那么,小型开源模型能否通过专项训练达到同等推理水平?
关键数据
- QED-Nano:4B参数后训练模型
- 超越:Nomos-1、GPT-OSS-120B(远大于自身)
- 接近:Gemini 3 Pro专有模型水平
- 推理成本:远低于专有模型
技术架构:三阶段训练
第一阶段:从DeepSeek-Math-V2蒸馏,做监督微调(SFT),学习证明写作风格。第二阶段:基于RL的rubric-based奖励函数训练。第三阶段:推理缓存扩展——将长证明分解为迭代式summarize-and-refine循环,强化测试时推理能力。
关键洞察
小模型的专项RL训练范式已成熟
QED-Nano证明,小模型(4B)+ 三阶段专项训练可以超越大40倍的模型。这不是孤例——Chart-RL、QED-Nano都在说明同一个趋势:在特定任务上,RL微调比通用预训练更有效。
推理缓存:长思维链的新突破
第三阶段的summarize-and-refine循环是关键创新。将长证明分解为多个迭代步骤,每个步骤都能从错误中学习并修正,最终在测试时产生更强的推理能力。这对需要多步推理的数学证明问题特别有效。
引发思考
QED-Nano的开源意味着:任何人可以用4B模型做奥数级别的数学证明。这对自动驾驶仿真(物理验证)、工厂计划排程(运筹优化)等领域都有直接影响——RL微调的证明能力可以迁移到需要严格逻辑推理的工程场景。
相关阅读
- 论文:arXiv:2604.04898 | https://arxiv.org/abs/2604.04898
- PDF:https://arxiv.org/pdf/2604.04898
- 开源代码:QED-Nano pipeline, FineProofs dataset
逍遥云初 | 2026.04.07

