ZAYA1-8B：700M 活跃参数挑战 DeepSeek-R1，小模型推理的新标杆

论文：arXiv:2605.05365 | 团队：Zyphra（旧金山） | 提交日期：2026年5月6日 | 模型：700M 活跃参数 / 8B 总参数 MoE

🔥 核心问题：小模型能否在推理任务上匹敌大模型？

大语言模型的推理能力一直是业界追逐的核心目标。从 DeepSeek-R1 到 GPT-5-High，主流方案倾向于用更大的参数规模换取更强的推理表现。然而，Zyphra 团队提出了一个根本性问题：如果从架构设计、训练流程到推理策略全栈优化，一个不到 1B 活跃参数的模型能否在数学和编程推理上达到顶级水平？

这个问题之所以重要，是因为推理能力的「民主化」决定了 AI 能否真正普惠。如果 700M 参数就能在 AIME 竞赛数学上达到 91.9% 的准确率，那么推理能力将不再是只有拥有万卡集群的公司才能触及的领域。这不仅是效率问题，更是 AI 可及性的根本性突破。

ZAYA1-8B 的核心洞察在于：推理能力不应该只靠堆参数，而是可以通过架构创新（MoE++、CCA、ZAYA1 Router）、从预训练就开始的推理数据注入、四阶段级联强化学习、以及测试时计算（Markovian RSA）的协同设计来实现。

📊 关键数据：Benchmark 对比

ZAYA1-8B 在多项高难度 benchmark 上表现出令人震惊的竞争力：

AIME'25（美国数学邀请赛）：单次推理达到顶级水平，Markovian RSA 测试时计算提升至 91.9%，逼近 Gemini-2.5 Pro 和 GPT-5-High
HMMT'25（哈佛-MIT 数学锦标赛）：Markovian RSA 提升至 89.6%，与 DeepSeek-V3.2、Qwen3-235B 等大模型同台竞技
LiveCodeBench-v6（编程竞赛）：与 DeepSeek-R1-0528 相当，超越多个 30B+ 参数的开源推理模型
对比对象：OLMo-3.1-32B-Think、Nemotron-3-Nano-30B-A3B、Mistral-Small-4-119B-2603、Intellect-3-12A-106B 等 — 全部是 10 倍以上参数规模的模型

关键洞察：700M 活跃参数 + Markovian RSA = 逼近万亿参数级推理模型。这意味着推理能力的瓶颈不在参数量，而在训练方法和推理策略的协同设计。

🏗️ 技术架构与设计

1. MoE++ 架构三大创新

CCA（压缩卷积注意力）：在压缩潜在空间中执行序列混合，大幅降低训练和 prefill 的计算开销，同时保持与 MLA、GQA 竞争的 KV-cache 压缩率。这使得长上下文 midtraining 在有限算力下成为可能。
ZAYA1 Router：用 MLP + 指数深度平均（EDA）替代传统线性路由器，配合受 PID 控制器启发的偏置平衡方案。少量路由器参数控制大量专家参数，显著提升专家选择的确定性和专业化程度。top-1 路由即超越传统 top-k 方案。
残差缩放（Residual Scaling）：对残差流和层输出施加可学习的缩放系数，控制深层网络的残差范数增长，参数开销可忽略不计。

2. 从预训练就注入推理能力

核心创新：推理数据（长链式思维 CoT）从预训练阶段就开始混入，而非仅依赖后训练。研究表明预训练阶段的推理数据能产生后训练无法复现的增益。
答案保留裁剪（AP-Trimming）：在训练数据构建阶段截断推理链尾部但保留最终答案，解决了超长推理链超出预训练上下文长度的问题。

3. 四阶段级联强化学习

推理预热：数学与谜题任务的初始 RL 训练
RLVE-Gym 课程：400 个任务的自适应难度课程学习
数学与代码 RL：使用测试时计算轨迹和竞赛编程参考构建的合成代码环境
行为 RL：对话风格、指令跟随和偏好行为的最终打磨

4. Markovian RSA — 测试时计算的核心突破

Markovian RSA 是本文最重要的方法论创新。它将 RSA（递归候选聚合）与 Markovian Thinking（有界工作空间）结合，把长推理转化为分阶段批量推理：每阶段并行生成 N 个候选，每个候选的解码长度有界，聚合预填仅依赖携带的尾部，而非完整推理历史。

关键在于：Markovian RSA 不仅在推理时使用，还被整合到训练中。SFT 数据通过将专家模型的 rollout 重排为聚合示例来构建，RL 阶段同时训练专家模型聚合和策略自聚合变体。这使得模型在训练阶段就学会了利用 Markovian RSA 的工作流。

💡 关键洞察

洞察一：小模型的推理上限远超预期。ZAYA1-8B 证明，不到 1B 的活跃参数足以在 AIME'25 这样的高难度数学竞赛上达到 91.9%。这挑战了「推理能力 = 堆参数」的主流假设，暗示着架构和训练方法的创新可以弥补数量级的参数差距。

洞察二：推理能力必须从预训练阶段就开始培养。ZAYA1-8B 的核心设计哲学是「推理优先」——推理数据从预训练就混入，而非依赖后训练弥补。这与主流「先预训练通用能力，再用 RL 激发推理」的范式形成鲜明对比。实验表明，预训练阶段的推理数据增益是后训练无法复现的。

洞察三：测试时计算（TTC）是真正的「倍增器」。Markovian RSA 将 ZAYA1-8B 的 AIME'25 成绩从单次推理水平提升到 91.9%，仅需携带 4K token 的尾部。这意味着 TTC 不是简单的「多算几次取最优」，而是有结构的推理聚合，可以在推理阶段大幅扩展有效计算量。

洞察四：AMD 全栈训练的可行性验证。ZAYA1-8B 的预训练、midtraining 和 SFT 全部在 AMD MI300X GPU + AMD Pensando Pollara 400 网络上完成，打破了 NVIDIA 在大模型训练中的垄断地位。这为 AI 训练基础设施的多元化提供了重要实证。

🤔 引发思考

ZAYA1-8B 的成功揭示了一个深层趋势：AI 推理能力的竞争正在从「谁的模型更大」转向「谁的训练方法更聪明」。当 700M 活跃参数的模型能在数学推理上逼近万亿参数级的前沿模型时，整个行业的 Scaling Law 叙事需要被重新审视。未来的竞争优势可能不在于谁能训出最大的模型，而在于谁能最高效地将推理能力注入到最小的模型中。

Markovian RSA 的「训练-推理一体化」设计尤其值得关注。将测试时计算策略整合到训练过程中，让模型在训练阶段就学会了如何利用额外的推理时间，这种「为推理而训练」的思路可能会成为下一代推理模型的标准范式。同时，小模型 + 高效 TTC 的组合为端侧推理部署打开了巨大的想象空间——如果 700M 参数就能在手机上运行数学推理，AI 的应用场景将被彻底重塑。

📚 相关阅读

ZAYA1-8B Technical Report：https://arxiv.org/abs/2605.05365
DeepSeek-R1: Incentivizing Reasoning Capability：https://arxiv.org/abs/2501.12948
Reasoning Models Reason Well, Until They Don't：https://arxiv.org/abs/2510.22371

逍遥云初 | 2026.05.24

ZAYA1-8B：700M 活跃参数挑战 DeepSeek-R1，小模型推理的新标杆