AI 论文 | TIDE：MoE 扩散大语言模型的「I/O 感知专家卸载」——把推理成本打下来的工程级解法

如果让你说出 2026 年大模型架构最热的两个词，答案大概率是 **MoE（混合专家）** 和 **Diffusion LLM（扩散大语言模型）**。

前者是 GPT-4、DeepSeek、Qwen3 等顶级模型已经验证的「稀疏激活」路线；后者是 Meta、字节、谷歌近半年密集下注的「下一代生成范式」。

把两者叠加，听起来像是「更强的模型」和「更便宜的成本」的双重胜利。

**但现实是：MoE + 扩散的组合，撞上了一个比「显存墙」更麻烦的瓶颈——I/O 墙。**

2026 年 5 月 arXiv 上的一篇论文 **《TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload》**（作者 Z. Chen、Y. Zhao、Y. Sui 等），首次系统性地拆解了这个问题，并给出了一个工程级、可落地的解决方案。

### 一、为什么 MoE + Diffusion 的组合这么诱人

先说为什么这个组合值得做。

**MoE 的核心价值是「用稀疏激活换推理效率」**：每次只激活部分专家（experts），理论上可以做到「模型大、参数多、推理便宜」。Qwen3、DeepSeek-V3 都用这个路线跑出了极致的成本结构。

**Diffusion LLM 的核心价值是「并行生成」**：不像自回归模型逐 token 串行，扩散模型可以一次并行去噪出一整段文本，理论上吞吐有数倍提升空间。LLaDA、DiffuLLaMA 等工作已经在中等规模上验证了这一点。

**两者组合的甜点**是：模型参数规模大、生成吞吐高、推理单价低。

对所有做 To-C 产品的团队来说，这就是「又好又便宜」的最优解。

### 二、为什么这个组合反而跑不起来

但工程团队真正部署时会发现一个尴尬的事实：**理论上的甜点，在真实硬件上跑成了「双倍卡顿」。**

问题出在「专家调度 + 扩散去噪」这两件事的耦合。

**1. 专家权重在 GPU 和 CPU/NVMe 之间来回搬**

MoE 架构里，专家权重是「按需激活」的——但「按需」在硬件层面意味着：某个 token 触发了哪个专家，GPU 就要去把那个专家的参数从显存（不够时从 CPU 内存甚至 NVMe 硬盘）里加载进来。

推理时，这种「跨设备加载」是常态。

**2. 扩散模型是「多次去噪」结构**

Diffusion LLM 不是一次生成，而是要经过多轮去噪迭代。每一轮，所有 token 都要重新计算专家路由——这意味着专家的加载-卸载次数，被进一步放大。

**3. I/O 带宽成为决定性瓶颈**

当模型规模大到 GPU 显存装不下时，**「加载专家」所需的时间，会远超过「激活专家」所需的计算时间**。

换句话说：GPU 在等数据。

一个原本应该是「计算密集型」的任务，被生生拖成了「I/O 密集型」任务。

TIDE 论文把这个现象称为 **「expert loading dominance」**——专家加载压倒了专家计算，成为推理延迟的主要来源。

### 三、TIDE 的核心思路：把「专家调度」变成「磁盘 I/O 调度」

TIDE 的洞见是：**既然瓶颈在 I/O，那就把整个推理过程当成一个「I/O 调度问题」来解。**

这个思路并不新——操作系统里的页面置换、数据库里的查询计划，本质上都是「I/O 调度」。TIDE 是把这一套调度哲学，搬到了 MoE Diffusion LLM 的推理引擎里。

具体来说，TIDE 做了三件事：

**1. 专家预取（Expert Prefetching）**

基于当前去噪轮的专家路由预测，**提前把下一轮可能用到的专家权重从 NVMe 预取到 CPU 内存**，再从 CPU 内存预取到 GPU 显存。

关键：不是「用到了再加载」，而是「即将用到就先拉过来」。

**2. 异步 I/O 流水线（Asynchronous I/O Pipelining）**

把专家加载、专家计算、KV cache 更新三件事**流水线化**，让 GPU 算力永远不空转。

I/O 与计算 overlap，这是高性能计算领域的经典手法，但在 LLM 推理引擎里一直没有被系统化地应用。

**3. 感知去噪步数的缓存策略（Denoising-step-aware Caching）**

TIDE 发现：**扩散模型的不同去噪步，对专家的「热力分布」是不同的**——早期的步需要更「广谱」的专家覆盖，后期的步会聚焦在少数几个专家上。

基于这个观察，TIDE 给不同去噪步配置不同的缓存策略，**减少不必要的加载**。

### 四、TIDE 的实际收益

论文在多个 MoE Diffusion LLM 配置下做了实验，核心数据：

• 在 7B-A14B、16B-A28B 等典型 MoE 配置上，**端到端推理时延最高降低约 4.1×**

• 在大模型场景下（专家数量多、单卡装不下），**HBM（高带宽内存）容量需求可压缩到原始的 1/3**

• **精度零损失**——这是 TIDE 强调的「Lossless」属性

最关键的一点：**TIDE 跑得通的前提条件是「消费级硬件 + 大容量 NVMe」**。

这意味着 1-2 张 4090/5090 加上几 TB 的 SSD，就能跑出原本需要 8 张 H100 才能勉强支撑的 MoE 扩散模型推理。

对开源社区和中小团队来说，这是个不小的福音。

### 五、为什么这件事值得被认真看

**1. 「架构创新」和「系统工程」正在重新耦合**

过去两年，AI 圈对「架构创新」的执念掩盖了「系统工程」的重要性。

TIDE 这样的工作提醒我们：**当架构红利（Transformer → MoE → Diffusion）逐渐被吃透，竞争的下一个战场就是工程优化**。

未来 12-24 个月，AI infra 层会跑出一批新的明星公司——它们的护城河不是模型，而是「让模型跑得更便宜」的工程能力。

**2. 推理成本曲线下行的「第二推力」**

第一推力是模型本身的优化（量化、稀疏化、蒸馏）。

第二推力是硬件升级（H100 → B200 → GB200）。

**TIDE 这类工作提供的是第三推力：调度与系统设计**。

第三推力的特点是「边际成本极低」——一旦调度算法在开源社区里被广泛实现，整个行业的推理成本曲线都会下移。

**3. 「小团队也能跑大模型」的可能性**

当消费级 GPU + NVMe 就能跑出企业级的推理性能时，**「大模型研发」的准入门槛被进一步拉低**。

这是开源生态的胜利，也是闭源 API 提供商的潜在威胁——当本地部署成本逼近 API 调用成本时，企业客户的偏好会再次反转。

### 六、这篇论文的边界

不神化，TIDE 也有它的局限：

• **论文目前主要在「去噪步间的专家路由模式」相对稳定的模型上验证**。如果未来出现路由模式剧烈抖动的架构，TIDE 的预测预取策略可能失效。

• **NVMe 的随机读延迟仍然是物理上限**。当模型参数大到需要从机械硬盘或慢速 SSD 加载时，TIDE 的收益会被压缩。

• **调度策略对框架侵入性较强**。TIDE 与 vLLM、TensorRT-LLM 等主流推理框架的整合还需要社区进一步贡献。

### 七、最后

TIDE 不是一篇会出现在「AGI」讨论里的论文。

但它解决的恰恰是 AGI 真正到来之前，**行业最需要的事情之一**——**把大模型的运行成本压下来**。

当万亿参数模型成为常态、当 Diffusion LLM 逐步接管生成任务、Agent 每天调用数千次 LLM——

**「I/O 调度」会成为推理引擎的胜负手**。

TIDE 给出了一个清晰的范式：**把硬件瓶颈当一等公民来设计算法，而不是用算力去硬堆**。

这才是「工程级创新」该有的样子。

AI 论文 | TIDE：MoE 扩散大语言模型的「I/O 感知专家卸载」——把推理成本打下来的工程级解法

推荐好物

相关文章

AI 论文 | TIDE：MoE 扩散大语言模型的「I/O 感知专家卸载」——把推理成本打下来的工程级解法

推荐好物

语言产品特惠

家用电器

酒类

相关文章

AI科技前沿快讯｜2026年7月29日

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四