📌 发布日期:2026年5月5日 | 来源:Google Blog

论文/技术链接:Multi-Token Prediction for Gemma 4


📌 核心问题

标准大语言模型推理面临一个根本性瓶颈:内存带宽限制。处理器将绝大多数时间花在把数十亿参数从 VRAM 搬运到计算单元上,只为生成一个 token。这导致计算资源严重浪费、延迟居高不下,尤其在消费级硬件上表现更为突出。对于需要实时交互的 AI Agent、编码助手和移动端应用来说,推理速度是制约生产部署的首要瓶颈。

Google DeepMind 针对这一问题,为 Gemma 4 开源模型家族发布了 Multi-Token Prediction (MTP) Drafters,采用推测解码(Speculative Decoding)架构,实现了最高 3 倍的推理加速,且输出质量和推理逻辑零降级。这一技术的开源发布,意味着从边缘设备到工作站的全场景推理效率都将获得显著提升。

自 Gemma 4 发布以来,下载量已超过 6000 万次。MTP Drafter 的推出进一步强化了这一开源生态的竞争力,让「智能密度」(intelligence-per-parameter)的含义从「同等参数更聪明」延伸到「同等质量更快响应」。


📊 关键数据

  • 最高 3 倍推理加速:MTP Drafter 配合目标模型使用,在多种硬件平台上实现最高 3x tokens/s 提升
  • 零质量损失:目标模型保留最终验证权,输出质量与标准推理完全一致
  • 26B MoE 模型在 NVIDIA RTX PRO 6000 上,标准推理 vs MTP 对比延迟减半
  • Apple Silicon 上 batch size 4-8 时可达 ~2.2 倍加速,NVIDIA A100 类似增益
  • Gemma 4 累计下载量超 6000 万次,Apache 2.0 开源许可
  • 支持 E2B/E4B(端侧)到 26B MoE/31B Dense(服务器级)全系列

🏗️ 技术架构与设计

  • 推测解码解耦:将 token 生成与验证分离,轻量级 Drafter 模型快速「猜测」多个未来 token,重型目标模型并行验证
  • KV Cache 共享:Drafter 模型无缝复用目标模型的激活值和 KV Cache,避免重复计算上下文
  • 高效 Embedder 聚类:针对 E2B/E4B 端侧模型,对最终 logit 计算采用聚类技术进一步加速
  • 多框架适配:支持 LiteRT-LM、MLX、Hugging Face Transformers、vLLM、SGLang、Ollama 等主流推理框架
  • 硬件感知优化:针对 Apple Silicon、NVIDIA GPU、移动端等不同硬件做差异化 batch 策略调优

🔑 关键洞察

推测解码从论文走向工程落地:Google 在 2022 年发表了 Speculative Decoding 论文,如今将理论变为 Gemma 4 的标配能力并开源。这意味着推测解码不再是实验室技术,而是生产级推理优化的标准组件。
开源模型的竞争维度正在扩展:Gemma 4 的核心卖点从「同等参数最强」延伸到「推理最快」。开源模型的竞争不再只看 benchmark 分数,推理效率、端侧部署能力、生态工具链完整性都成为关键战场。
端侧 AI Agent 的可行性大幅提升:E2B/E4B 配合 MTP Drafter,让手机等边缘设备也能实现低延迟的 Agent 级推理。这对 Android AI 生态、离线编码助手、实时语音交互等场景意义重大。
KV Cache 共享是核心工程创新:Drafter 不需要重新计算上下文,直接复用目标模型的 KV Cache。这一设计将推测解码的额外计算开销降到最低,是 3 倍加速的关键所在。

🤔 引发思考

MTP Drafter 的发布标志着开源大模型进入「推理效率竞赛」新阶段。当模型能力趋同(如 Arena.ai 排行榜上 Gemma 4 以 1/30 参数量达到接近顶级闭源模型的表现),推理速度和部署成本就成为差异化竞争的核心。Google 通过开源 MTP Drafter,实际上是在重新定义「智能密度」的衡量标准——不仅要看模型多聪明,还要看它多快、多省资源。

对开发者而言,这一技术最直接的影响是降低了大模型在消费级硬件上的使用门槛。31B Dense 模型配合 MTP Drafter,可以在个人电脑上实现接近实时的推理体验,这对本地编码助手、隐私敏感的 Agent 应用、离线场景的部署决策都将产生深远影响。


📎 相关阅读

  • Gemma 4 发布博客:https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
  • Speculative Decoding 原始论文(Google, 2022):https://arxiv.org/abs/2211.17192
  • Gemma 4 on Google Cloud:https://cloud.google.com/blog/products/ai-machine-learning/gemma-4-available-on-google-cloud
  • Gemma 4 端侧 Agent 能力:https://developers.googleblog.com/bring-state-of-the-art-agentic-skills-to-the-edge-with-gemma-4/

逍遥云初 | 2026.05.16