Multi-Token Prediction:从"逐字阅读"到"一目十行"的 LLM 推理革命

技术概览

  • 论文/技术来源
  • Meta AI: (Gloeckle et al., 2024.04)
  • DeepSeek-AI: (2024.12) — MTP 作为训练目标 + 推理加速
  • DeepSeek-AI: (2025.01)
  • Leviathan et al.: (ICML 2023)
  • 核心团队:Meta FAIR、DeepSeek-AI
  • 关键词:Multi-Token Prediction (MTP)、Speculative Decoding、推理加速、Draft Model、Parallel Head

核心问题:为什么这件事重要

LLM 推理的瓶颈是什么?自回归生成的串行性。 传统 LLM 每次前向传播只能预测 1 个 token,生成 1000 个 token 需要 1000 次前向传播。即使模型参数量不变,这个 O(n) 的时间复杂度也限制了推理吞吐。

过去两年,业界主要通过两条路线解决这个问题:

  1. Speculative Decoding(推测解码):用一个小的 draft model 先猜 K 个 token,然后用大模型一次性验证。如果猜对了,就省了 K-1 次前向传播。问题是需要额外维护一个 draft model,且 draft 质量直接影响加速比。
  2. Multi-Token Prediction(MTP,多 token 预测):Meta 2024 年 4 月的论文提出了一个优雅的方案——训练时让模型同时预测多个未来 token,通过 n 个独立的 output head 共享模型 trunk。推理时,这些 head 天然可以充当 draft model,不需要额外的模型。

为什么 MTP 比传统 Speculative Decoding 更有吸引力? 三个原因:第一,draft quality 更高——MTP 的 head 和主模型共享 trunk,对上下文的理解比独立 draft model 更深;第二,不需要额外的模型部署成本;第三,训练时的 MTP 作为辅助任务,本身就能提升模型的表示质量(sample efficiency),这是"附赠"的能力提升。


关键数据:数字说话

Meta MTP 论文(2024.04)

  • 13B 参数模型在 HumanEval 上多解决 12%,MBPP 上多解决 17%(相比 next-token baseline)
  • 4-token prediction 模型推理速度提升 3 倍(即使是 large batch size)
  • MTP 作为训练辅助任务,不增加训练时间开销
  • 编码任务收益最大,自然语言任务也有提升
  • 模型越大,MTP 收益越明显(scaling-friendly)

DeepSeek-V3(2024.12)

  • 671B 总参数 / 37B 激活参数(MoE 架构)
  • 训练成本仅 $5.576M(2.788M H800 GPU hours),约为同级模型的 1/10
  • MTP 作为训练目标:预测后续 2 个 token(不只是 1 个)
  • MTP 辅助训练使得 DeepSeek-V3 在多项基准上达到 GPT-4o / Claude 3.5 Sonnet 水平
  • MTP 的推理加速:通过 MTP head 作为 draft model,配合自验证机制,推理吞吐显著提升

Speculative Decoding 基线对比

  • 传统 speculative decoding(独立 draft model)在 code generation 上典型加速 2-3x
  • MTP-based speculative decoding 因为 draft 质量更高,加速比可达到 3-4x
  • 关键差异:传统方法的 draft model 与 target model 参数独立,MTP 的 draft head 与主模型共享 trunk,上下文一致性更好

技术架构与设计

  • 训练架构:n 个独立 output head + 共享 trunk。每个位置不只预测下一个 token,而是同时预测后续 n 个 token。每个 head 是独立的 output projection(独立的 output embedding),但共享底层的 transformer trunk。这意味着训练时的额外参数开销很小(只有 n 个 output projection),但模型被迫学习更丰富的表示——因为要同时"看到"更远的未来。
  • 推理时的 Self-Speculative Decoding。MTP 模型推理时,主 head 生成当前 token,MTP heads 可以同时"猜测"后续 K 个 token。然后用主 head 验证这些猜测——如果猜测正确,就直接采纳,省去 K-1 次前向传播。这本质上是把 draft model 内化到了训练目标中,不需要额外部署一个 draft model。
  • DeepSeek-V3 的 MTP 实现细节。DeepSeek-V3 使用 2-token prediction(预测后续 2 个 token)作为训练目标。每个 MTP head 有自己的 output embedding + linear projection,但共享完整的 transformer backbone。推理时,MTP head 的输出作为 draft,主 head 进行验证。关键创新:MTP head 的权重可以在推理时复用为 speculative decoding 的 draft 机制,不需要额外的模型加载。
  • 与 KV Cache 的协同优化。MTP 的 speculative decoding 天然与 KV Cache 优化互补——MTP heads 在验证阶段可以复用主模型的 KV Cache,不需要额外的 cache 分配。相比之下,传统 speculative decoding 的 draft model 需要独立维护一套 KV Cache。这使得 MTP 在显存效率上也有优势。
  • Draft 质量是加速比的核心瓶颈。Speculative decoding 的加速比 = 验证步数 / (draft 步数 + 验证步数),关键在于 draft 的接受率(acceptance rate)。MTP heads 因为与主模型共享 trunk,对上下文的理解深度远超独立 draft model,因此 accept rate 更高。Meta 的实验显示,4-token prediction 的 accept rate 在代码生成任务上达到 70-80%,远高于独立 draft model 的 50-60%。

关键洞察

🔑 洞察一:MTP 重新定义了"训练目标"与"推理架构"的关系

传统 LLM 的训练目标(next-token prediction)和推理架构(自回归生成)是解耦的——训练时只关心"下一个 token 是什么",推理时串行生成。MTP 打破了这个解耦:训练目标本身就包含了"推理时如何加速"的信息。模型在训练时学会了"预测多个未来 token",推理时这些预测能力直接转化为 draft 能力。

这种"训练即推理优化"的思想是一个范式转变。它暗示了一个更深层的设计原则:训练目标应该与推理需求对齐,而不仅仅是与数据分布对齐。

🔑 洞察二:Self-Speculative Decoding 是 draft model 的终极形态

传统 speculative decoding 面临的核心问题是 draft model 的维护成本——你需要训练、部署、维护一个独立的小模型,而且 draft quality 和 target model 的匹配度很难保证(特别是当 target model 更新时)。

MTP 的 self-speculative decoding 完全消除了这个问题:draft head 就是主模型的一部分,永远与主模型同步更新,永远不会"版本不匹配"。这解决了传统 speculative decoding 在生产环境中最大的运维痛点。

🔑 洞察三:MTP 对代码生成的收益远大于自然语言

Meta 论文的一个关键发现是:MTP 在代码生成(HumanEval +12%、MBPP +17%)上的收益远大于自然语言任务。原因可能是:代码的结构化程度更高,token 之间的依赖关系更强,"看到更远的未来"对代码生成的帮助更大。

这对 AI Coding Agent 的启示是:如果目标是做 coding agent,应该优先考虑 MTP-trained 模型。DeepSeek-V3 在 code 基准上的强势表现,部分归功于 MTP 训练。

🔑 洞察四:推理优化的两条主线正在收敛

过去,推理优化分为两条独立的主线:

  • 省内存:KV Cache 压缩、量化、GQA、PagedAttention
  • 提速度:Speculative Decoding、Early Exit、MTP

MTP 的出现让这两条线开始收敛——MTP 既减少了推理步数(提速度),又不需要额外的 KV Cache(省内存)。未来,推理优化的趋势可能是联合优化:在同一个架构中同时解决内存和速度问题,而不是分别处理。


引发思考:对行业的影响

MTP 的出现标志着 LLM 推理进入了一个"从 1 到 N"的新阶段。过去我们接受"每次前向传播只能预测 1 个 token"是 LLM 的固有限制,但 MTP 证明了这个限制是可以突破的。

首先,推理成本将显著下降。如果 MTP + speculative decoding 能把推理步数减少 3-4 倍,那么同等 QPS 下的 GPU 需求也会减少 3-4 倍。这对 LLM 的大规模部署至关重要——推理成本一直是 LLM 商业化的核心障碍。

其次,训练和推理的边界将更加模糊。MTP 的训练目标本身就包含了推理时的加速能力,这意味着未来的模型设计需要同时考虑训练效率和推理效率,而不是先训练好再想办法加速。

最后,开源模型在推理效率上可能反超闭源模型。DeepSeek-V3 通过 MTP + MoE + FP8 混合精度训练,在极低的训练成本下达到了 GPT-4o 水平。如果 MTP 成为标准训练目标,开源社区可以更快地迭代出高效的推理模型,而闭源模型提供商需要重新审视自己的推理架构。

一目十行不是梦——关键在于,你是否在训练时就教会了模型"如何快速阅读"。


相关阅读

  • Better & Faster LLMs via Multi-token Predictionhttps://arxiv.org/abs/2404.19737 — Meta AI, Gloeckle et al., 2024.04
  • DeepSeek-V3 Technical Reporthttps://arxiv.org/abs/2412.19437 — DeepSeek-AI, 2024.12
  • DeepSeek-R1: Incentivizing Reasoning via RLhttps://arxiv.org/abs/2501.12948 — DeepSeek-AI, 2025.01
  • Fast Inference via Speculative Decodinghttps://arxiv.org/abs/2211.17192 — Leviathan et al., ICML 2023
  • DeepSeek-V2: A Strong, Economical MoE Modelhttps://arxiv.org/abs/2405.04434 — DeepSeek-AI, 2024.05
  • EAGLE: Speculative Sampling via Extrapolationhttps://arxiv.org/abs/2401.15077 — Li et al., 2024.01

*逍遥云初 | 2026.04.03*