Gated DeltaNet-2：NVlabs用「擦写解耦」打开线性注意力瓶颈（arXiv 2605.22791）

核心问题：线性注意力为何一直「差点意思」？

Softmax注意力有个致命弱点：缓存随序列长度线性增长，处理长上下文时显存爆炸。线性注意力用固定大小递归状态替代 unbounded cache，理论上序列混合时间从O(n)降到O(n)，解码内存恒定。

但现实很骨感：每次编辑压缩记忆，都要小心翼翼——旧内容还没擦干净，新内容就写进去了，容易把已有的关联搅成一锅粥。现有方案（Delta-rule、KDA）用一个标量门同时控制「擦多少」和「写多少」，这是核心瓶颈。

Gated DeltaNet-2：把「擦」和「写」拆开

NVlabs最新工作Gated DeltaNet-2干了一件看似简单、但极重要的事：把线性注意力中的「擦除门」和「写入门」解耦。

之前方案用同一个标量门控制两个截然不同的操作——key侧擦多少旧内容、value侧写多少新内容，本质上是在用一把钥匙开两把锁。Gated DeltaNet-2用channel-wise擦门b_t和channel-wise写门w_t分别控制，彻底拆解了这个耦合。

当两个门退化为同一标量，且衰减也collapse时，方案退化为KDA；当只有衰减collapse时，退化为Gated DeltaNet。所以这是一个真正的通用框架，KDA和Gated DeltaNet都是它的特例。

一句话总结：把线性注意力的「读写耦合」打开，用两个独立channel-wise门分别控制，信息压缩效率大幅提升。

技术实现：快权重更新视角

论文给出了三个关键贡献：

快权重更新视角（FWU）：推导出Gated Delta Rule-2的物理含义，擦写解耦对应了可解释的权重更新机制
Chunkwise WY算法：把channel-wise衰减吸收进非对称擦除因子，实现高效并行训练
Gate-aware反向传播：保留高效并行训练的同时，精确建模门控机制

训练配置：1.3B参数，100B FineWeb-Edu tokens。这个规模足以验证实际效果。

实验结果：长上下文是最大赢家

在语言建模、常识推理、检索三类任务上全面超越Mamba-2、Gated DeltaNet、KDA、Mamba-3变体。

最亮眼的表现来自RULER needle-in-a-haystack长上下文基准：多键检索设置下显著领先，递归和混合模式均保持强劲。

核心结论：擦写解耦带来的记忆编辑精度提升，在长上下文任务上体现得最充分。这恰好是线性注意力最容易「糊弄」的场景——固定大小缓存里塞了太多东西，精确编辑比模糊覆盖重要得多。

观点

Gated DeltaNet-2的意义不只是刷新SOTA。它揭示了一个底层规律：线性注意力系统的瓶颈，不在于状态压缩算法本身，而在于「如何精细地编辑压缩后的状态」。这把刀一切开，很多沿着「压缩效率」方向的优化就变成了伪命题——真正的焦点应该转向「读写粒度」。

对AI从业者的启示：如果你在做基于线性注意力的长上下文模型，Gated DeltaNet-2的架构值得认真研究；如果你的场景集中在短序列、实时解码，低调的Mamba系可能更实用。选型时想清楚「你在解决的是压缩问题还是编辑问题」。

📄 Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention 🔗 arXiv:2605.22791 👥 Ali Hatamizadeh 等（NVlabs） 📅 2026年5月21日 📌 #线性注意力 #状态压缩 #Mamba #长上下文

Gated DeltaNet-2：NVlabs用「擦写解耦」打开线性注意力瓶颈（arXiv 2605.22791）

核心问题：线性注意力为何一直「差点意思」？

Gated DeltaNet-2：把「擦」和「写」拆开

技术实现：快权重更新视角

实验结果：长上下文是最大赢家

观点

推荐好物

相关文章

Gated DeltaNet-2：NVlabs用「擦写解耦」打开线性注意力瓶颈（arXiv 2605.22791）

核心问题：线性注意力为何一直「差点意思」？

Gated DeltaNet-2：把「擦」和「写」拆开

技术实现：快权重更新视角

实验结果：长上下文是最大赢家

观点

推荐好物

女装

AI领航·智慧未来

酒类

相关文章

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四

2026 年国内 AI 剧漫剧市场规模将达 400 亿元，同比增长 138%