2026 年 6 月 18 日,Google DeepMind 的 Neel Nanda 团队在 arXiv 上挂出一篇对 DiffusionGemma 的「机制可解释性」系统研究(编号 arXiv:2606.20560v1),正面回答了一个所有研究者都在回避的问题:

当一个大模型把「大部分计算」搬到连续潜空间里去之后——它的推理,我们到底还能不能「看见」?

**一句话结论:能。**

**只要把可解释性拆成「变量透明」+「算法透明」两个维度,再用一个「可解释 token 瓶颈」去映射去噪步骤之间的信息流——扩散语言模型的「不透明串行深度」从原本的 28.6 倍压缩到 1.1 倍,几乎和自回归 Gemma 4 持平。**

这是 2026 年扩散语言模型(diffusion LLM)赛道,第一次从「工程实现」层面给出了「我们能搞清楚它在干什么」的硬证据。

### 一、为什么要研究 DiffusionGemma 的可解释性

先把背景摆出来。

**2026 年的语言模型,分成了两条路:**

• 自回归派(GPT-5.6、Claude Mythos、Qwen3.5-Plus、Gemini 3.5 Flash)—— 一个 token 一个 token 生成

• 扩散派(DiffusionGemma、LLaDA、Mercury Coder、Seed Diffusion)—— 一次在「画布」上同时改多个 token

扩散派的核心优势是**并行生成**:理论上能在同样的算力下产出 5-10 倍的 token,对代码、长文、Agent 工作流尤其友好。

**但问题也很尖锐:**

扩散模型的所有计算都在「连续潜空间」里跑——中间状态的数值是浮点数向量,不是离散的 token。

这意味着过去那一套「读 attention」「看 hidden state」「trace 推理链」的可解释性工具,**几乎全部失效**。

Neel Nanda 团队(Anthropic 前 Interpretability 团队 leader、Google DeepMind 现任 mechanistic interpretability lead)决定正面回答这个问题:

**DiffusionGemma 的推理,到底能不能看懂?**

### 二、研究方法:把「透明性」拆成两层

论文的核心方法论创新,是把「可解释性」拆成两个独立、可度量的维度:

**变量透明度(Variable Transparency):我们是否理解模型计算状态的「中间快照」?**

**算法透明度(Algorithmic Transparency):我们是否能用这些快照,「重建」模型得到输出的过程?**

**两个透明度都必须成立,模型才算「可解释」。**

然后团队引入了一个关键度量:「不透明串行深度」(Opaque Serial Depth)——

在两个「可解释模型状态」之间,有多少串行计算是不可见的。

数字越大,模型越像「黑盒」;数字越小,模型越接近「白盒」。

### 三、关键数据:28.6× → 1.1×,发生了什么

**1. 朴素测量结果(坏消息):28.6 倍**

如果不加任何适配,直接拿「自回归 Gemma 4」的标准可解释性工具去测 DiffusionGemma——

它的不透明串行深度是 Gemma 4 的 **28.6 倍**。

这意味着在两个「可读」的中间状态之间,DiffusionGemma 跑了相当于 Gemma 4 跑 28.6 步的「不可见」计算。

**2. 加了「可解释 token 瓶颈」之后:1.1 倍(几乎追平)**

团队提出一个极其简单的 trick:

**在每一步去噪(denoising)之间,强制让信息流过一个「可解释的 token 瓶颈」——本质上把连续潜空间中的状态「投影」回离散 token 空间。**

这个瓶颈几乎不损失下游性能(准确率、生成质量完全没掉),但让每一步去噪的中间状态都变得「可读」。

不透明串行深度瞬间从 28.6× 降到 **1.1×**——基本和 Gemma 4 持平。

**3. 算法透明度:扩散特有现象被「看见」了**

更难的是「算法透明度」——用快照重建推理过程。

团队做了一系列案例研究,发现了**三类扩散模型特有、过去完全未知的现象**:

**• 非时序推理(Non-chronological reasoning)**:模型在解决「步骤 3 依赖步骤 5」这种问题时,会主动「回看」画布上尚未完成的区域,并行计算而非线性推进。

**• Token 与序列涂抹(Token / sequence smearing)**:扩散过程的中间状态里,单个 token 位置会「模糊化」,承载多个候选 token 的混合信息,类似人脑的「浮现感」。

**• 中间上下文推理(Intermediate-context reasoning)**:模型把「下一步要写什么」的线索,直接存进了画布的某个中间区域,而不是传统 KV cache。

这些现象是自回归模型里**根本不存在的**——它揭示了「并行生成」背后一套全新的计算范式。

**4. 可监控性(Monitorability)测试:与 Gemma 4 持平**

团队最后测了一个对「模型安全部署」极其关键的指标:可监控性——

把模型中间状态作为信号喂给下游分类器,看它能不能预测「这段输出是否有害」。

**DiffusionGemma 的可监控性与 Gemma 4 相当**——这是个非常重要的结论:

**「并行生成」不会让我们失去「AI 安全可观测性」。**

### 四、对行业的三个连锁反应

**1. 扩散语言模型「安全部署」的最后一块拼图落地**

过去一年,Diffusion LLM 一直卡在「性能强、推理快,但不可观测、不可调试」的尴尬位置。

Neel Nanda 团队的论文,第一次从「机制可解释性」层面证明:我们可以让 Diffusion LLM 既强又安全。

**2. 「可解释性瓶颈」可能成为下一代推理引擎的标准模块**

NVIDIA TensorRT-LLM、Anyscale vLLM、AWS SGLang 等推理引擎,未来很可能原生支持「可解释性瓶颈」——

每一步生成都留「可读中间状态」,既是 debugging 工具,也是 AI Safety 的核心能力。

**3. 「机制可解释性」从学术圈进入产品工程**

Neel Nanda 本人在 Anthropic 时推动了 Claude「circuit tracing」项目;这次在 Google 直接给「扩散模型」做了完整版。

**这门学科正在从「学术实验室」进入「AI 头部公司的标配部门」**。

### 五、不应被高估的部分

冷静下来也得指出:

**1. 「1.1 倍不透明」≠「完全透明」**

算法透明度上,扩散模型仍比自回归模型难——「画布上所有 token 每步都可能变化」让 trace 工具的开发成本高一个数量级。

**2. 仅在 DiffusionGemma 上验证,尚未泛化**

其他扩散 LLM(LLaDA、Mercury、Seed Diffusion)的架构差异较大,这套方法是否通用,还需要更多实验。

**3. 「可监控性」≠「可解释所有推理错误」**

论文的可监控性测试只覆盖了「有害输出」一类,对幻觉、推理错误、长程规划错误等场景的覆盖度还不明确。

### 六、值得跟踪的后续

1. **LLaDA / Mercury / Seed Diffusion 是否跟进「token 瓶颈」架构**

2. **Anthropic Claude 的 circuit tracing 是否扩到 diffusion 模型**

3. **NVIDIA 是否把「可解释性瓶颈」整合进 TensorRT-LLM 2026 Q3 路线图**

4. **「可解释性」是否成为头部模型采购方的硬性指标**——Anthropic 的 Mythos 系列已经把它列为核心能力之一

来源:

• arXiv:2606.20560v1(Google DeepMind, Joshua Engels / Neel Nanda 等 14 位作者,2026 年 6 月 18 日挂载)

• 论文正文 20 页 + 参考文献 6 页,是 2026 年扩散 LLM 可解释性最系统的实证研究

### 相关阅读

• 2026-06-21:arXiv 阿里 Qwen 团队 Parallel Speculative Decoding 推理快 2 倍

• 2026-06-19:arXiv SafeSteer 把 alignment tax 降低 78%

• 2026-06-15:arXiv TIDE 解决 MoE 扩散 LLM 推理的 I/O 瓶颈