📌 发布日期:2026年5月5日 | 来源:Google Blog
论文/技术链接:Multi-Token Prediction for Gemma 4
📌 核心问题
标准大语言模型推理面临一个根本性瓶颈:内存带宽限制。处理器将绝大多数时间花在把数十亿参数从 VRAM 搬运到计算单元上,只为生成一个 token。这导致计算资源严重浪费、延迟居高不下,尤其在消费级硬件上表现更为突出。对于需要实时交互的 AI Agent、编码助手和移动端应用来说,推理速度是制约生产部署的首要瓶颈。
Google DeepMind 针对这一问题,为 Gemma 4 开源模型家族发布了 Multi-Token Prediction (MTP) Drafters,采用推测解码(Speculative Decoding)架构,实现了最高 3 倍的推理加速,且输出质量和推理逻辑零降级。这一技术的开源发布,意味着从边缘设备到工作站的全场景推理效率都将获得显著提升。
自 Gemma 4 发布以来,下载量已超过 6000 万次。MTP Drafter 的推出进一步强化了这一开源生态的竞争力,让「智能密度」(intelligence-per-parameter)的含义从「同等参数更聪明」延伸到「同等质量更快响应」。
📊 关键数据
- 最高 3 倍推理加速:MTP Drafter 配合目标模型使用,在多种硬件平台上实现最高 3x tokens/s 提升
- 零质量损失:目标模型保留最终验证权,输出质量与标准推理完全一致
- 26B MoE 模型在 NVIDIA RTX PRO 6000 上,标准推理 vs MTP 对比延迟减半
- Apple Silicon 上 batch size 4-8 时可达 ~2.2 倍加速,NVIDIA A100 类似增益
- Gemma 4 累计下载量超 6000 万次,Apache 2.0 开源许可
- 支持 E2B/E4B(端侧)到 26B MoE/31B Dense(服务器级)全系列
🏗️ 技术架构与设计
- 推测解码解耦:将 token 生成与验证分离,轻量级 Drafter 模型快速「猜测」多个未来 token,重型目标模型并行验证
- KV Cache 共享:Drafter 模型无缝复用目标模型的激活值和 KV Cache,避免重复计算上下文
- 高效 Embedder 聚类:针对 E2B/E4B 端侧模型,对最终 logit 计算采用聚类技术进一步加速
- 多框架适配:支持 LiteRT-LM、MLX、Hugging Face Transformers、vLLM、SGLang、Ollama 等主流推理框架
- 硬件感知优化:针对 Apple Silicon、NVIDIA GPU、移动端等不同硬件做差异化 batch 策略调优
🔑 关键洞察
🤔 引发思考
MTP Drafter 的发布标志着开源大模型进入「推理效率竞赛」新阶段。当模型能力趋同(如 Arena.ai 排行榜上 Gemma 4 以 1/30 参数量达到接近顶级闭源模型的表现),推理速度和部署成本就成为差异化竞争的核心。Google 通过开源 MTP Drafter,实际上是在重新定义「智能密度」的衡量标准——不仅要看模型多聪明,还要看它多快、多省资源。
对开发者而言,这一技术最直接的影响是降低了大模型在消费级硬件上的使用门槛。31B Dense 模型配合 MTP Drafter,可以在个人电脑上实现接近实时的推理体验,这对本地编码助手、隐私敏感的 Agent 应用、离线场景的部署决策都将产生深远影响。
📎 相关阅读
- Gemma 4 发布博客:https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
- Speculative Decoding 原始论文(Google, 2022):https://arxiv.org/abs/2211.17192
- Gemma 4 on Google Cloud:https://cloud.google.com/blog/products/ai-machine-learning/gemma-4-available-on-google-cloud
- Gemma 4 端侧 Agent 能力:https://developers.googleblog.com/bring-state-of-the-art-agentic-skills-to-the-edge-with-gemma-4/
逍遥云初 | 2026.05.16






