arXiv 深度 | Google DeepMind 拆开 DiffusionGemma：连续潜空间 LLM 推理，第一次「看得见」了 —— 不透明串行深度从 28.6× 压到 1.1×

2026 年 6 月 18 日，Google DeepMind 的 Neel Nanda 团队在 arXiv 上挂出一篇对 DiffusionGemma 的「机制可解释性」系统研究（编号 arXiv:2606.20560v1），正面回答了一个所有研究者都在回避的问题：

当一个大模型把「大部分计算」搬到连续潜空间里去之后——它的推理，我们到底还能不能「看见」？

**一句话结论：能。**

**只要把可解释性拆成「变量透明」+「算法透明」两个维度，再用一个「可解释 token 瓶颈」去映射去噪步骤之间的信息流——扩散语言模型的「不透明串行深度」从原本的 28.6 倍压缩到 1.1 倍，几乎和自回归 Gemma 4 持平。**

这是 2026 年扩散语言模型（diffusion LLM）赛道，第一次从「工程实现」层面给出了「我们能搞清楚它在干什么」的硬证据。

### 一、为什么要研究 DiffusionGemma 的可解释性

先把背景摆出来。

**2026 年的语言模型，分成了两条路：**

• 自回归派（GPT-5.6、Claude Mythos、Qwen3.5-Plus、Gemini 3.5 Flash）—— 一个 token 一个 token 生成

• 扩散派（DiffusionGemma、LLaDA、Mercury Coder、Seed Diffusion）—— 一次在「画布」上同时改多个 token

扩散派的核心优势是**并行生成**：理论上能在同样的算力下产出 5-10 倍的 token，对代码、长文、Agent 工作流尤其友好。

**但问题也很尖锐：**

扩散模型的所有计算都在「连续潜空间」里跑——中间状态的数值是浮点数向量，不是离散的 token。

这意味着过去那一套「读 attention」「看 hidden state」「trace 推理链」的可解释性工具，**几乎全部失效**。

Neel Nanda 团队（Anthropic 前 Interpretability 团队 leader、Google DeepMind 现任 mechanistic interpretability lead）决定正面回答这个问题：

**DiffusionGemma 的推理，到底能不能看懂？**

### 二、研究方法：把「透明性」拆成两层

论文的核心方法论创新，是把「可解释性」拆成两个独立、可度量的维度：

**变量透明度（Variable Transparency）：我们是否理解模型计算状态的「中间快照」？**

**算法透明度（Algorithmic Transparency）：我们是否能用这些快照，「重建」模型得到输出的过程？**

**两个透明度都必须成立，模型才算「可解释」。**

然后团队引入了一个关键度量：「不透明串行深度」（Opaque Serial Depth）——

在两个「可解释模型状态」之间，有多少串行计算是不可见的。

数字越大，模型越像「黑盒」；数字越小，模型越接近「白盒」。

### 三、关键数据：28.6× → 1.1×，发生了什么

**1. 朴素测量结果（坏消息）：28.6 倍**

如果不加任何适配，直接拿「自回归 Gemma 4」的标准可解释性工具去测 DiffusionGemma——

它的不透明串行深度是 Gemma 4 的 **28.6 倍**。

这意味着在两个「可读」的中间状态之间，DiffusionGemma 跑了相当于 Gemma 4 跑 28.6 步的「不可见」计算。

**2. 加了「可解释 token 瓶颈」之后：1.1 倍（几乎追平）**

团队提出一个极其简单的 trick：

**在每一步去噪（denoising）之间，强制让信息流过一个「可解释的 token 瓶颈」——本质上把连续潜空间中的状态「投影」回离散 token 空间。**

这个瓶颈几乎不损失下游性能（准确率、生成质量完全没掉），但让每一步去噪的中间状态都变得「可读」。

不透明串行深度瞬间从 28.6× 降到 **1.1×**——基本和 Gemma 4 持平。

**3. 算法透明度：扩散特有现象被「看见」了**

更难的是「算法透明度」——用快照重建推理过程。

团队做了一系列案例研究，发现了**三类扩散模型特有、过去完全未知的现象**：

**• 非时序推理（Non-chronological reasoning）**：模型在解决「步骤 3 依赖步骤 5」这种问题时，会主动「回看」画布上尚未完成的区域，并行计算而非线性推进。

**• Token 与序列涂抹（Token / sequence smearing）**：扩散过程的中间状态里，单个 token 位置会「模糊化」，承载多个候选 token 的混合信息，类似人脑的「浮现感」。

**• 中间上下文推理（Intermediate-context reasoning）**：模型把「下一步要写什么」的线索，直接存进了画布的某个中间区域，而不是传统 KV cache。

这些现象是自回归模型里**根本不存在的**——它揭示了「并行生成」背后一套全新的计算范式。

**4. 可监控性（Monitorability）测试：与 Gemma 4 持平**

团队最后测了一个对「模型安全部署」极其关键的指标：可监控性——

把模型中间状态作为信号喂给下游分类器，看它能不能预测「这段输出是否有害」。

**DiffusionGemma 的可监控性与 Gemma 4 相当**——这是个非常重要的结论：

**「并行生成」不会让我们失去「AI 安全可观测性」。**

### 四、对行业的三个连锁反应

**1. 扩散语言模型「安全部署」的最后一块拼图落地**

过去一年，Diffusion LLM 一直卡在「性能强、推理快，但不可观测、不可调试」的尴尬位置。

Neel Nanda 团队的论文，第一次从「机制可解释性」层面证明：我们可以让 Diffusion LLM 既强又安全。

**2. 「可解释性瓶颈」可能成为下一代推理引擎的标准模块**

NVIDIA TensorRT-LLM、Anyscale vLLM、AWS SGLang 等推理引擎，未来很可能原生支持「可解释性瓶颈」——

每一步生成都留「可读中间状态」，既是 debugging 工具，也是 AI Safety 的核心能力。

**3. 「机制可解释性」从学术圈进入产品工程**

Neel Nanda 本人在 Anthropic 时推动了 Claude「circuit tracing」项目；这次在 Google 直接给「扩散模型」做了完整版。

**这门学科正在从「学术实验室」进入「AI 头部公司的标配部门」**。

### 五、不应被高估的部分

冷静下来也得指出：

**1. 「1.1 倍不透明」≠「完全透明」**

算法透明度上，扩散模型仍比自回归模型难——「画布上所有 token 每步都可能变化」让 trace 工具的开发成本高一个数量级。

**2. 仅在 DiffusionGemma 上验证，尚未泛化**

其他扩散 LLM（LLaDA、Mercury、Seed Diffusion）的架构差异较大，这套方法是否通用，还需要更多实验。

**3. 「可监控性」≠「可解释所有推理错误」**

论文的可监控性测试只覆盖了「有害输出」一类，对幻觉、推理错误、长程规划错误等场景的覆盖度还不明确。

### 六、值得跟踪的后续

1. **LLaDA / Mercury / Seed Diffusion 是否跟进「token 瓶颈」架构**

2. **Anthropic Claude 的 circuit tracing 是否扩到 diffusion 模型**

3. **NVIDIA 是否把「可解释性瓶颈」整合进 TensorRT-LLM 2026 Q3 路线图**

4. **「可解释性」是否成为头部模型采购方的硬性指标**——Anthropic 的 Mythos 系列已经把它列为核心能力之一

来源：

• arXiv:2606.20560v1（Google DeepMind, Joshua Engels / Neel Nanda 等 14 位作者，2026 年 6 月 18 日挂载）

• 论文正文 20 页 + 参考文献 6 页，是 2026 年扩散 LLM 可解释性最系统的实证研究

### 相关阅读

• 2026-06-21：arXiv 阿里 Qwen 团队 Parallel Speculative Decoding 推理快 2 倍

• 2026-06-19：arXiv SafeSteer 把 alignment tax 降低 78%

• 2026-06-15：arXiv TIDE 解决 MoE 扩散 LLM 推理的 I/O 瓶颈

arXiv 深度 | Google DeepMind 拆开 DiffusionGemma：连续潜空间 LLM 推理，第一次「看得见」了 —— 不透明串行深度从 28.6× 压到 1.1×

推荐好物

相关文章

arXiv 深度 | Google DeepMind 拆开 DiffusionGemma：连续潜空间 LLM 推理，第一次「看得见」了 —— 不透明串行深度从 28.6× 压到 1.1×

推荐好物

游戏服专属特惠

酒类

云产品精品福利

相关文章

科技产业 | 古尔曼曝苹果 2026-2027 产品线：折叠屏 + 智能眼镜 + 机械臂机器人 —— 「AI 硬件全家桶」要来了

AI 算力 | 英伟达 Rubin 全面液冷：全球首个 100% 液冷 AI 平台，把超大规模数据中心的「电老虎」按下去

迈威尔科技纳入标普500：AI定制芯片时代的新王者