📌 核心问题

现代 Transformer 架构存在一个根本性的低效问题:当模型需要回忆一个静态事实(比如「巴黎是法国首都」)时,它无法直接查询数据库,而是通过多层注意力和前馈网络的昂贵计算来「重建」这个知识——这本质上是用计算模拟检索。

随着模型规模扩大,这种低效不断放大。GPU 高带宽显存(HBM)依然昂贵且稀缺,更大的模型会立刻填满可用内存,形成持续的扩展瓶颈。DeepSeek 提出的核心洞察是:静态知识存储和动态推理计算需要根本不同的计算方式,将它们耦合在同一套参数中是资源的浪费。

📊 关键数据

在严格控制参数量和计算量的条件下,Engram-27B 对比 MoE 基线模型在知识、推理、代码和数学任务上均有提升:

  • MMLU:57.4 → 60.4(+3.0)
  • BBH(Big-Bench Hard):50.9 → 55.9(+5.0)
  • HumanEval(代码):37.8 → 40.8(+3.0)
  • Needle-in-a-Haystack 准确率:84.2% → 97.0%(+12.8pp,最显著提升)
  • 100 亿参数嵌入表卸载到系统 DRAM 后,吞吐量损失低于 3%

🏗️ 技术架构 / 设计

  • Tokenizer 压缩:将不同大小写的同一单词映射到规范形式,词汇表体积减少 23%
  • 多头哈希(Multi-Head Hashing):用 K 个独立哈希头处理每个 N-gram 阶,缓解哈希冲突,实现 O(1) 常数时间检索
  • 上下文感知门控(Context-Aware Gating):当前隐藏状态作为 query 门控检索到的嵌入,抑制噪声、保留有用信息
  • 最优架构比例:75-80% 参数分配给 MoE 计算,20-25% 分配给 Engram 记忆模块,呈 U 型曲线
  • Engram 模块插入在第 2 层和第 15 层,最大 N-gram 阶为 3,8 个哈希头,维度 1280

🔑 关键洞察

记忆与计算是独立可扩展的资源:传统模型把所有知识强行塞进神经网络权重,Engram 证明静态知识检索和动态推理计算应该用不同的机制处理。这是 LLM 架构设计的一个新稀疏性维度。
早期干预效应释放推理深度:Engram 在第 2 层插入效果最好。它把早期层从静态模式重建中解放出来,相当于「加深」了网络用于复杂推理的能力。消融实验显示禁用 Engram 后知识任务崩溃到 29-44%,但推理任务受影响较小。
GPU 内存瓶颈的范式转移:Engram 能将 100 亿参数嵌入表卸载到系统 DRAM,通过 PCIe 异步预取,吞吐量损失 <3%。这意味着 AI 基础设施可以从「最大 HBM」转向「HBM + 大容量 DRAM 池」的混合架构。
对 GPU 出口管制的战略意义:通过降低 HBM 需求,Engram 使模型可以在受限硬件上竞争性部署——这对受出口管制影响的 AI 发展尤为重要。

💭 引发思考

Engram 代表了一种架构层面的范式转移:下一代大模型可能不再是「更大的 Transformer」,而是「更聪明的混合架构」。当行业还在追逐更大参数量、更多 GPU 时,DeepSeek 选择从架构设计本身寻找突破——用更少的资源做更多的事,这正是工程哲学的体现。

值得注意的是,Engram 与 DeepSeek 同期发布的 mHC(流形约束超连接)论文一起,很可能构成 V4 模型的两大架构支柱。论文和代码完全开源,这意味着全球研究社区可以立即验证和扩展这项工作。从 V3 到 R1 再到 Engram,DeepSeek 正在用一系列开源成果重新定义「高效 AI」的含义。


📎 相关阅读


逍遥云初 | 2026.05.20