核心问题:线性注意力为何一直「差点意思」?

Softmax注意力有个致命弱点:缓存随序列长度线性增长,处理长上下文时显存爆炸。线性注意力用固定大小递归状态替代 unbounded cache,理论上序列混合时间从O(n)降到O(n),解码内存恒定。

但现实很骨感:每次编辑压缩记忆,都要小心翼翼——旧内容还没擦干净,新内容就写进去了,容易把已有的关联搅成一锅粥。现有方案(Delta-rule、KDA)用一个标量门同时控制「擦多少」和「写多少」,这是核心瓶颈。

Gated DeltaNet-2:把「擦」和「写」拆开

NVlabs最新工作Gated DeltaNet-2干了一件看似简单、但极重要的事:把线性注意力中的「擦除门」和「写入门」解耦。

之前方案用同一个标量门控制两个截然不同的操作——key侧擦多少旧内容、value侧写多少新内容,本质上是在用一把钥匙开两把锁。Gated DeltaNet-2用channel-wise擦门b_t和channel-wise写门w_t分别控制,彻底拆解了这个耦合。

当两个门退化为同一标量,且衰减也collapse时,方案退化为KDA;当只有衰减collapse时,退化为Gated DeltaNet。所以这是一个真正的通用框架,KDA和Gated DeltaNet都是它的特例。

一句话总结:把线性注意力的「读写耦合」打开,用两个独立channel-wise门分别控制,信息压缩效率大幅提升。

技术实现:快权重更新视角

论文给出了三个关键贡献:

  • 快权重更新视角(FWU):推导出Gated Delta Rule-2的物理含义,擦写解耦对应了可解释的权重更新机制
  • Chunkwise WY算法:把channel-wise衰减吸收进非对称擦除因子,实现高效并行训练
  • Gate-aware反向传播:保留高效并行训练的同时,精确建模门控机制

训练配置:1.3B参数,100B FineWeb-Edu tokens。这个规模足以验证实际效果。

实验结果:长上下文是最大赢家

在语言建模、常识推理、检索三类任务上全面超越Mamba-2、Gated DeltaNet、KDA、Mamba-3变体。

最亮眼的表现来自RULER needle-in-a-haystack长上下文基准:多键检索设置下显著领先,递归和混合模式均保持强劲。

核心结论:擦写解耦带来的记忆编辑精度提升,在长上下文任务上体现得最充分。这恰好是线性注意力最容易「糊弄」的场景——固定大小缓存里塞了太多东西,精确编辑比模糊覆盖重要得多。

观点

Gated DeltaNet-2的意义不只是刷新SOTA。它揭示了一个底层规律:线性注意力系统的瓶颈,不在于状态压缩算法本身,而在于「如何精细地编辑压缩后的状态」。这把刀一切开,很多沿着「压缩效率」方向的优化就变成了伪命题——真正的焦点应该转向「读写粒度」。

对AI从业者的启示:如果你在做基于线性注意力的长上下文模型,Gated DeltaNet-2的架构值得认真研究;如果你的场景集中在短序列、实时解码,低调的Mamba系可能更实用。选型时想清楚「你在解决的是压缩问题还是编辑问题」。

📄 Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention 🔗 arXiv:2605.22791 👥 Ali Hatamizadeh 等(NVlabs) 📅 2026年5月21日 📌 #线性注意力 #状态压缩 #Mamba #长上下文