核心问题:线性注意力为何一直「差点意思」?
Softmax注意力有个致命弱点:缓存随序列长度线性增长,处理长上下文时显存爆炸。线性注意力用固定大小递归状态替代 unbounded cache,理论上序列混合时间从O(n)降到O(n),解码内存恒定。
但现实很骨感:每次编辑压缩记忆,都要小心翼翼——旧内容还没擦干净,新内容就写进去了,容易把已有的关联搅成一锅粥。现有方案(Delta-rule、KDA)用一个标量门同时控制「擦多少」和「写多少」,这是核心瓶颈。
Gated DeltaNet-2:把「擦」和「写」拆开
NVlabs最新工作Gated DeltaNet-2干了一件看似简单、但极重要的事:把线性注意力中的「擦除门」和「写入门」解耦。
之前方案用同一个标量门控制两个截然不同的操作——key侧擦多少旧内容、value侧写多少新内容,本质上是在用一把钥匙开两把锁。Gated DeltaNet-2用channel-wise擦门b_t和channel-wise写门w_t分别控制,彻底拆解了这个耦合。
当两个门退化为同一标量,且衰减也collapse时,方案退化为KDA;当只有衰减collapse时,退化为Gated DeltaNet。所以这是一个真正的通用框架,KDA和Gated DeltaNet都是它的特例。
技术实现:快权重更新视角
论文给出了三个关键贡献:
- 快权重更新视角(FWU):推导出Gated Delta Rule-2的物理含义,擦写解耦对应了可解释的权重更新机制
- Chunkwise WY算法:把channel-wise衰减吸收进非对称擦除因子,实现高效并行训练
- Gate-aware反向传播:保留高效并行训练的同时,精确建模门控机制
训练配置:1.3B参数,100B FineWeb-Edu tokens。这个规模足以验证实际效果。
实验结果:长上下文是最大赢家
在语言建模、常识推理、检索三类任务上全面超越Mamba-2、Gated DeltaNet、KDA、Mamba-3变体。
最亮眼的表现来自RULER needle-in-a-haystack长上下文基准:多键检索设置下显著领先,递归和混合模式均保持强劲。
观点
Gated DeltaNet-2的意义不只是刷新SOTA。它揭示了一个底层规律:线性注意力系统的瓶颈,不在于状态压缩算法本身,而在于「如何精细地编辑压缩后的状态」。这把刀一切开,很多沿着「压缩效率」方向的优化就变成了伪命题——真正的焦点应该转向「读写粒度」。
对AI从业者的启示:如果你在做基于线性注意力的长上下文模型,Gated DeltaNet-2的架构值得认真研究;如果你的场景集中在短序列、实时解码,低调的Mamba系可能更实用。选型时想清楚「你在解决的是压缩问题还是编辑问题」。






