QED-Nano：4B模型证明奥数难题，小模型如何追上专有模型的推理能力

专有AI系统（如Gemini 3 Pro）在IMO等奥数难题上展现了令人印象深刻的证明能力，但这些系统的训练流程不透明、依赖超大规模模型和复杂scaffold，成本高昂、难以复现。那么，小型开源模型能否通过专项训练达到同等推理水平？

第一阶段：从DeepSeek-Math-V2蒸馏，做监督微调（SFT），学习证明写作风格。第二阶段：基于RL的rubric-based奖励函数训练。第三阶段：推理缓存扩展——将长证明分解为迭代式summarize-and-refine循环，强化测试时推理能力。

QED-Nano证明，小模型（4B）+ 三阶段专项训练可以超越大40倍的模型。这不是孤例——Chart-RL、QED-Nano都在说明同一个趋势：在特定任务上，RL微调比通用预训练更有效。

第三阶段的summarize-and-refine循环是关键创新。将长证明分解为多个迭代步骤，每个步骤都能从错误中学习并修正，最终在测试时产生更强的推理能力。这对需要多步推理的数学证明问题特别有效。

QED-Nano的开源意味着：任何人可以用4B模型做奥数级别的数学证明。这对自动驾驶仿真（物理验证）、工厂计划排程（运筹优化）等领域都有直接影响——RL微调的证明能力可以迁移到需要严格逻辑推理的工程场景。

推荐好物