ZAYA1-8B:700M 活跃参数挑战 DeepSeek-R1,小模型推理的新标杆

论文:arXiv:2605.05365 | 团队:Zyphra(旧金山) | 提交日期:2026年5月6日 | 模型:700M 活跃参数 / 8B 总参数 MoE

🔥 核心问题:小模型能否在推理任务上匹敌大模型?

大语言模型的推理能力一直是业界追逐的核心目标。从 DeepSeek-R1 到 GPT-5-High,主流方案倾向于用更大的参数规模换取更强的推理表现。然而,Zyphra 团队提出了一个根本性问题:如果从架构设计、训练流程到推理策略全栈优化,一个不到 1B 活跃参数的模型能否在数学和编程推理上达到顶级水平?

这个问题之所以重要,是因为推理能力的「民主化」决定了 AI 能否真正普惠。如果 700M 参数就能在 AIME 竞赛数学上达到 91.9% 的准确率,那么推理能力将不再是只有拥有万卡集群的公司才能触及的领域。这不仅是效率问题,更是 AI 可及性的根本性突破。

ZAYA1-8B 的核心洞察在于:推理能力不应该只靠堆参数,而是可以通过架构创新(MoE++、CCA、ZAYA1 Router)、从预训练就开始的推理数据注入、四阶段级联强化学习、以及测试时计算(Markovian RSA)的协同设计来实现。

📊 关键数据:Benchmark 对比

ZAYA1-8B 在多项高难度 benchmark 上表现出令人震惊的竞争力:

  • AIME'25(美国数学邀请赛):单次推理达到顶级水平,Markovian RSA 测试时计算提升至 91.9%,逼近 Gemini-2.5 Pro 和 GPT-5-High
  • HMMT'25(哈佛-MIT 数学锦标赛):Markovian RSA 提升至 89.6%,与 DeepSeek-V3.2、Qwen3-235B 等大模型同台竞技
  • LiveCodeBench-v6(编程竞赛):与 DeepSeek-R1-0528 相当,超越多个 30B+ 参数的开源推理模型
  • 对比对象:OLMo-3.1-32B-Think、Nemotron-3-Nano-30B-A3B、Mistral-Small-4-119B-2603、Intellect-3-12A-106B 等 — 全部是 10 倍以上参数规模的模型
关键洞察:700M 活跃参数 + Markovian RSA = 逼近万亿参数级推理模型。这意味着推理能力的瓶颈不在参数量,而在训练方法和推理策略的协同设计。

🏗️ 技术架构与设计

1. MoE++ 架构三大创新

  • CCA(压缩卷积注意力):在压缩潜在空间中执行序列混合,大幅降低训练和 prefill 的计算开销,同时保持与 MLA、GQA 竞争的 KV-cache 压缩率。这使得长上下文 midtraining 在有限算力下成为可能。
  • ZAYA1 Router:用 MLP + 指数深度平均(EDA)替代传统线性路由器,配合受 PID 控制器启发的偏置平衡方案。少量路由器参数控制大量专家参数,显著提升专家选择的确定性和专业化程度。top-1 路由即超越传统 top-k 方案。
  • 残差缩放(Residual Scaling):对残差流和层输出施加可学习的缩放系数,控制深层网络的残差范数增长,参数开销可忽略不计。

2. 从预训练就注入推理能力

  • 核心创新:推理数据(长链式思维 CoT)从预训练阶段就开始混入,而非仅依赖后训练。研究表明预训练阶段的推理数据能产生后训练无法复现的增益。
  • 答案保留裁剪(AP-Trimming):在训练数据构建阶段截断推理链尾部但保留最终答案,解决了超长推理链超出预训练上下文长度的问题。

3. 四阶段级联强化学习

  1. 推理预热:数学与谜题任务的初始 RL 训练
  2. RLVE-Gym 课程:400 个任务的自适应难度课程学习
  3. 数学与代码 RL:使用测试时计算轨迹和竞赛编程参考构建的合成代码环境
  4. 行为 RL:对话风格、指令跟随和偏好行为的最终打磨

4. Markovian RSA — 测试时计算的核心突破

Markovian RSA 是本文最重要的方法论创新。它将 RSA(递归候选聚合)与 Markovian Thinking(有界工作空间)结合,把长推理转化为分阶段批量推理:每阶段并行生成 N 个候选,每个候选的解码长度有界,聚合预填仅依赖携带的尾部,而非完整推理历史。

关键在于:Markovian RSA 不仅在推理时使用,还被整合到训练中。SFT 数据通过将专家模型的 rollout 重排为聚合示例来构建,RL 阶段同时训练专家模型聚合和策略自聚合变体。这使得模型在训练阶段就学会了利用 Markovian RSA 的工作流。

💡 关键洞察

洞察一:小模型的推理上限远超预期。ZAYA1-8B 证明,不到 1B 的活跃参数足以在 AIME'25 这样的高难度数学竞赛上达到 91.9%。这挑战了「推理能力 = 堆参数」的主流假设,暗示着架构和训练方法的创新可以弥补数量级的参数差距。
洞察二:推理能力必须从预训练阶段就开始培养。ZAYA1-8B 的核心设计哲学是「推理优先」——推理数据从预训练就混入,而非依赖后训练弥补。这与主流「先预训练通用能力,再用 RL 激发推理」的范式形成鲜明对比。实验表明,预训练阶段的推理数据增益是后训练无法复现的。
洞察三:测试时计算(TTC)是真正的「倍增器」。Markovian RSA 将 ZAYA1-8B 的 AIME'25 成绩从单次推理水平提升到 91.9%,仅需携带 4K token 的尾部。这意味着 TTC 不是简单的「多算几次取最优」,而是有结构的推理聚合,可以在推理阶段大幅扩展有效计算量。
洞察四:AMD 全栈训练的可行性验证。ZAYA1-8B 的预训练、midtraining 和 SFT 全部在 AMD MI300X GPU + AMD Pensando Pollara 400 网络上完成,打破了 NVIDIA 在大模型训练中的垄断地位。这为 AI 训练基础设施的多元化提供了重要实证。

🤔 引发思考

ZAYA1-8B 的成功揭示了一个深层趋势:AI 推理能力的竞争正在从「谁的模型更大」转向「谁的训练方法更聪明」。当 700M 活跃参数的模型能在数学推理上逼近万亿参数级的前沿模型时,整个行业的 Scaling Law 叙事需要被重新审视。未来的竞争优势可能不在于谁能训出最大的模型,而在于谁能最高效地将推理能力注入到最小的模型中。

Markovian RSA 的「训练-推理一体化」设计尤其值得关注。将测试时计算策略整合到训练过程中,让模型在训练阶段就学会了如何利用额外的推理时间,这种「为推理而训练」的思路可能会成为下一代推理模型的标准范式。同时,小模型 + 高效 TTC 的组合为端侧推理部署打开了巨大的想象空间——如果 700M 参数就能在手机上运行数学推理,AI 的应用场景将被彻底重塑。

📚 相关阅读


逍遥云初 | 2026.05.24