ZAYA1-8B:700M 活跃参数挑战 DeepSeek-R1,小模型推理的新标杆
🔥 核心问题:小模型能否在推理任务上匹敌大模型?
大语言模型的推理能力一直是业界追逐的核心目标。从 DeepSeek-R1 到 GPT-5-High,主流方案倾向于用更大的参数规模换取更强的推理表现。然而,Zyphra 团队提出了一个根本性问题:如果从架构设计、训练流程到推理策略全栈优化,一个不到 1B 活跃参数的模型能否在数学和编程推理上达到顶级水平?
这个问题之所以重要,是因为推理能力的「民主化」决定了 AI 能否真正普惠。如果 700M 参数就能在 AIME 竞赛数学上达到 91.9% 的准确率,那么推理能力将不再是只有拥有万卡集群的公司才能触及的领域。这不仅是效率问题,更是 AI 可及性的根本性突破。
ZAYA1-8B 的核心洞察在于:推理能力不应该只靠堆参数,而是可以通过架构创新(MoE++、CCA、ZAYA1 Router)、从预训练就开始的推理数据注入、四阶段级联强化学习、以及测试时计算(Markovian RSA)的协同设计来实现。
📊 关键数据:Benchmark 对比
ZAYA1-8B 在多项高难度 benchmark 上表现出令人震惊的竞争力:
- AIME'25(美国数学邀请赛):单次推理达到顶级水平,Markovian RSA 测试时计算提升至 91.9%,逼近 Gemini-2.5 Pro 和 GPT-5-High
- HMMT'25(哈佛-MIT 数学锦标赛):Markovian RSA 提升至 89.6%,与 DeepSeek-V3.2、Qwen3-235B 等大模型同台竞技
- LiveCodeBench-v6(编程竞赛):与 DeepSeek-R1-0528 相当,超越多个 30B+ 参数的开源推理模型
- 对比对象:OLMo-3.1-32B-Think、Nemotron-3-Nano-30B-A3B、Mistral-Small-4-119B-2603、Intellect-3-12A-106B 等 — 全部是 10 倍以上参数规模的模型
🏗️ 技术架构与设计
1. MoE++ 架构三大创新
- CCA(压缩卷积注意力):在压缩潜在空间中执行序列混合,大幅降低训练和 prefill 的计算开销,同时保持与 MLA、GQA 竞争的 KV-cache 压缩率。这使得长上下文 midtraining 在有限算力下成为可能。
- ZAYA1 Router:用 MLP + 指数深度平均(EDA)替代传统线性路由器,配合受 PID 控制器启发的偏置平衡方案。少量路由器参数控制大量专家参数,显著提升专家选择的确定性和专业化程度。top-1 路由即超越传统 top-k 方案。
- 残差缩放(Residual Scaling):对残差流和层输出施加可学习的缩放系数,控制深层网络的残差范数增长,参数开销可忽略不计。
2. 从预训练就注入推理能力
- 核心创新:推理数据(长链式思维 CoT)从预训练阶段就开始混入,而非仅依赖后训练。研究表明预训练阶段的推理数据能产生后训练无法复现的增益。
- 答案保留裁剪(AP-Trimming):在训练数据构建阶段截断推理链尾部但保留最终答案,解决了超长推理链超出预训练上下文长度的问题。
3. 四阶段级联强化学习
- 推理预热:数学与谜题任务的初始 RL 训练
- RLVE-Gym 课程:400 个任务的自适应难度课程学习
- 数学与代码 RL:使用测试时计算轨迹和竞赛编程参考构建的合成代码环境
- 行为 RL:对话风格、指令跟随和偏好行为的最终打磨
4. Markovian RSA — 测试时计算的核心突破
Markovian RSA 是本文最重要的方法论创新。它将 RSA(递归候选聚合)与 Markovian Thinking(有界工作空间)结合,把长推理转化为分阶段批量推理:每阶段并行生成 N 个候选,每个候选的解码长度有界,聚合预填仅依赖携带的尾部,而非完整推理历史。
关键在于:Markovian RSA 不仅在推理时使用,还被整合到训练中。SFT 数据通过将专家模型的 rollout 重排为聚合示例来构建,RL 阶段同时训练专家模型聚合和策略自聚合变体。这使得模型在训练阶段就学会了利用 Markovian RSA 的工作流。
💡 关键洞察
🤔 引发思考
ZAYA1-8B 的成功揭示了一个深层趋势:AI 推理能力的竞争正在从「谁的模型更大」转向「谁的训练方法更聪明」。当 700M 活跃参数的模型能在数学推理上逼近万亿参数级的前沿模型时,整个行业的 Scaling Law 叙事需要被重新审视。未来的竞争优势可能不在于谁能训出最大的模型,而在于谁能最高效地将推理能力注入到最小的模型中。
Markovian RSA 的「训练-推理一体化」设计尤其值得关注。将测试时计算策略整合到训练过程中,让模型在训练阶段就学会了如何利用额外的推理时间,这种「为推理而训练」的思路可能会成为下一代推理模型的标准范式。同时,小模型 + 高效 TTC 的组合为端侧推理部署打开了巨大的想象空间——如果 700M 参数就能在手机上运行数学推理,AI 的应用场景将被彻底重塑。
📚 相关阅读
- ZAYA1-8B Technical Report:https://arxiv.org/abs/2605.05365
- DeepSeek-R1: Incentivizing Reasoning Capability:https://arxiv.org/abs/2501.12948
- Reasoning Models Reason Well, Until They Don't:https://arxiv.org/abs/2510.22371
逍遥云初 | 2026.05.24






