arXiv 深度 | 阿里 Qwen 团队「边猜边跑」：让大模型推理快了近 2 倍，猜对不奖、猜错也不罚的新范式来了

2026 年 6 月 10 日，阿里巴巴 Qwen 团队在 arXiv 上挂出一篇论文（编号 arXiv:2606.12370v1），直接瞄准当前所有大语言模型推理的最大痛点——慢。

团队来自阿里通义实验室，核心成员包括陈志锐、赵一鸣、隋毅等多位一线研究员。

**一句话总结：让大模型边「猜下一个 token」边「执行上一个 token」，推理端到端速度提升近 2 倍，而无需任何额外训练。**

这篇论文在 6 月 18 日被国内多家 AI 媒体（CSDN、机器之心、量子位）报道后，迅速成为本周 arXiv 中文区引用增速最快的论文。

### 一、为什么「大模型推理慢」是 2026 年最被低估的问题

先说背景。

2026 年是「大模型全行业进入生产环境」的一年。GPT-5.6、Claude Mythos、Gemini 3.5 Flash、Qwen3.5-Plus 等模型已经把上下文拉到 100 万、150 万 token 级别。

但——

**模型能力每提升一档，推理成本往往跟着涨两档。**

当前主流 Transformer 大语言模型用的还是「自回归解码」——

必须等前一个 token 算完，才能算下一个，本质上是「串行」。

一个 1000 token 的回答，就算用 A100 跑也要等好几秒；150 万 token 长上下文，单次响应动辄十几秒。

业界已提出的优化路线大致四条：

• **模型蒸馏**（把大模型压成小模型，损失精度）

• **量化**（FP16 → INT4/INT8，部分能力下降）

• **投机解码 / Speculative Decoding**（用一个「小模型先猜」，被广泛采用但仍有瓶颈）

• **硬件加速**（H100、B200、Thor-U，但单卡贵）

Qwen 团队的论文，切入的就是「投机解码」这一支。

### 二、传统投机解码的痛点：猜错了就「白干」

投机解码的逻辑简单：

用一个小的「草稿模型」先猜未来 5-10 个 token，再让大模型一次性「验证」这些 token 是不是对的。

猜对了，免费赚到 N 倍加速；猜错了，重新来过。

**这里就有一个工程上的悖论：**

草稿模型猜得越准，加速效果越好；但草稿模型本身也要算，算「猜」也是要花时间的。

**如果草稿模型猜错率高，加速效果可能反而「倒贴」。**

业界普遍数据是：在常见任务上，传统投机解码只能拿到 1.2-1.5 倍加速，「完全不值得上」的临界点很多。

### 三、Qwen 团队的破局思路：让「猜」和「算」并行起来

Qwen 团队提出的方案被论文命名为「Parallel Speculative Decoding」（并行推测解码），核心思想一句话就能说清：

**别等「猜」全部完成再「验证」——让它们在同一时刻跑。**

具体做法分三层：

**1. 时间分片：把解码切成「草稿段 + 验证段」交替的流水线**

传统做法：草稿猜 K 个 token → 大模型验证 K 个 → 输出 → 下一轮。

新做法：在 GPU 还没「干等」的时候，就让草稿模型开始猜下一段。

**2. 投机-验证解耦：草稿和验证的 GPU 计算资源「按需分配」**

草稿模型小，可以塞进空闲 SM（流式多处理器）；验证用大模型主算力。

两者在硬件层「错峰」使用，避免互相等。

**3. 动态「猜 K 值」：根据历史命中率自适应**

如果最近 10 次草稿命中率 80%，就猜 8 个；如果只有 30%，就猜 3 个——避免「猜多了浪费」。

### 四、关键数据：端到端提速 1.8-1.95 倍，零精度损失

论文给出了 5 个标准 benchmark 的实测数据：

**1. HumanEval（代码生成）：1.82 倍加速**

**2. MMLU（综合知识）：1.91 倍加速**

**3. GSM8K（数学推理）：1.78 倍加速**

**4. TriviaQA（长文本问答）：1.95 倍加速**

**5. ShareGPT 多轮对话：1.87 倍加速**

**平均 1.87 倍。**

更关键的是：

**「零精度损失」——所有 benchmark 分数和原始自回归解码完全一致。**

这一点是相对传统投机解码的最大优势：传统方法为了「猜得更准」往往要专门训练草稿模型，精度虽然守得住，但泛化能力下降。

Qwen 团队的方案是「调度层面」的创新，不动模型本身，理论上可以即插即用到任何现成大模型。

### 五、为什么这个突破「可能比想象的大」

**1. 对所有部署方都「白送」提速**

不需要重新训练模型——只要在推理引擎（vLLM、TGI、SGLang、TensorRT-LLM）层加一个调度模块，就能让任何模型快近 2 倍。

**2. 与硬件升级是「乘法」关系，不是「替代」**

在 H100 / B200 / Thor-U 上跑这个方案，加速比还能进一步叠加。

**3. 长上下文场景收益更大**

TriviaQA 上 1.95 倍加速的事实说明：上下文越长，串行解码的「等待浪费」越严重，并行化的收益越大。

这对 150 万 token 级别的 GPT-5.6、Gemini 3.5 Pro 是「雪中送炭」级别的优化。

### 六、行业层面的三个连锁反应

**1. 推理引擎赛道将出现「调度层」军备竞赛**

vLLM（Anyscale）、TGI（HuggingFace）、SGLang、TensorRT-LLM（NVIDIA）——谁先把 Qwen 这套并行调度做进去，谁就在 2026 下半年的「推理服务」市场抢到先手。

**2. 「Token 成本」继续下降，AI 应用经济模型重写**

6 月 20 日 Headroom 已经在「压缩层」节省 70-95% 成本；现在 Qwen 又在「推理引擎」端提速 1.87 倍——

两件事叠加意味着：到 2026 年底，AI 调用的「单位成本」可能再降 3-5 倍。

**3. 中国大模型「工程红利」开始反向输出**

Qwen 团队的论文是 arXiv 公开版本，理论上任何公司都能复现——

这是中国大模型团队第一次在「推理基础设施」层面向全球输出一条可复用的工程范式。

### 七、不应被高估的部分

冷静下来也得指出：

**1. 1.87 倍是「端到端平均」，不是「所有场景都 1.87 倍」**

短文本、低延迟请求下，并行调度本身的协调开销可能让加速比降到 1.2-1.3 倍。

**2. 需要推理引擎主动适配，落地有 1-2 个版本周期**

vLLM、TGI 等主流引擎的官方支持预计 2-3 个月后才能稳定；中间可能出现「自家部署能用，云厂商 API 还没上」的情况。

**3. 不能解决「训练慢」问题**

论文只优化「推理」阶段；万亿级模型的「训练」成本还是天价。

### 八、值得跟踪的后续

1. **vLLM / TGI / SGLang 的官方 PR**——看哪一家在 7 月之前合入「Parallel Speculative Decoding」

2. **阿里云「百炼」平台的官方支持**——Qwen 团队自家平台是否第一时间上线

3. **OpenAI、Anthropic 的回应**——海外厂商是否会跟进类似方案

4. **NVIDIA TensorRT-LLM 的集成**——这是黄仁勋「全栈 AI」的重要拼图

来源：

• arXiv:2606.12370v1（阿里巴巴 Qwen 团队，2026 年 6 月 10 日挂载）

• 量子位 6 月 18 日《阿里 Qwen 团队最新论文：让大模型推理快了近 2 倍》

• CSDN 6 月 18 日《阿里巴巴 Qwen 团队破解 AI 训练瓶颈》

### 相关阅读

• 2026-06-20：AI 开源 Headroom 砍掉 70-95% 调用成本

• 2026-06-19：arXiv SafeSteer 把 alignment tax 降低 78%

• 2026-06-15：TIDE 解决 MoE 扩散 LLM 推理的 I/O 瓶颈

arXiv 深度 | 阿里 Qwen 团队「边猜边跑」：让大模型推理快了近 2 倍，猜对不奖、猜错也不罚的新范式来了

推荐好物

相关文章

arXiv 深度 | 阿里 Qwen 团队「边猜边跑」：让大模型推理快了近 2 倍，猜对不奖、猜错也不罚的新范式来了

推荐好物

女装

语言产品特惠

音视频通讯

相关文章

车圈观察 | 理想 i6 第 15 万台下线：上市 9 个月，24.98 万级纯电 SUV 跑出「断层级速度」 —— VLA 司机大模型开始进入量产验证

AI 产业 | 阿里 Qwen-Robot 完整三件套：中国首个「手·脚·脑」具身智能模型矩阵落地 —— 机器人终于有通用底座了

算力墙与人脑墙同时被撬开：2026 瓶颈突破之年 | 深度解读