DeepSeek Engram：将记忆与推理分离的 LLM 架构突破

📌 核心问题

现代 Transformer 架构存在一个根本性的低效问题：当模型需要回忆一个静态事实（比如「巴黎是法国首都」）时，它无法直接查询数据库，而是通过多层注意力和前馈网络的昂贵计算来「重建」这个知识——这本质上是用计算模拟检索。

随着模型规模扩大，这种低效不断放大。GPU 高带宽显存（HBM）依然昂贵且稀缺，更大的模型会立刻填满可用内存，形成持续的扩展瓶颈。DeepSeek 提出的核心洞察是：静态知识存储和动态推理计算需要根本不同的计算方式，将它们耦合在同一套参数中是资源的浪费。

📊 关键数据

在严格控制参数量和计算量的条件下，Engram-27B 对比 MoE 基线模型在知识、推理、代码和数学任务上均有提升：

MMLU：57.4 → 60.4（+3.0）
BBH（Big-Bench Hard）：50.9 → 55.9（+5.0）
HumanEval（代码）：37.8 → 40.8（+3.0）
Needle-in-a-Haystack 准确率：84.2% → 97.0%（+12.8pp，最显著提升）
100 亿参数嵌入表卸载到系统 DRAM 后，吞吐量损失低于 3%

🏗️ 技术架构 / 设计

Tokenizer 压缩：将不同大小写的同一单词映射到规范形式，词汇表体积减少 23%
多头哈希（Multi-Head Hashing）：用 K 个独立哈希头处理每个 N-gram 阶，缓解哈希冲突，实现 O(1) 常数时间检索
上下文感知门控（Context-Aware Gating）：当前隐藏状态作为 query 门控检索到的嵌入，抑制噪声、保留有用信息
最优架构比例：75-80% 参数分配给 MoE 计算，20-25% 分配给 Engram 记忆模块，呈 U 型曲线
Engram 模块插入在第 2 层和第 15 层，最大 N-gram 阶为 3，8 个哈希头，维度 1280

🔑 关键洞察

记忆与计算是独立可扩展的资源：传统模型把所有知识强行塞进神经网络权重，Engram 证明静态知识检索和动态推理计算应该用不同的机制处理。这是 LLM 架构设计的一个新稀疏性维度。

早期干预效应释放推理深度：Engram 在第 2 层插入效果最好。它把早期层从静态模式重建中解放出来，相当于「加深」了网络用于复杂推理的能力。消融实验显示禁用 Engram 后知识任务崩溃到 29-44%，但推理任务受影响较小。

GPU 内存瓶颈的范式转移：Engram 能将 100 亿参数嵌入表卸载到系统 DRAM，通过 PCIe 异步预取，吞吐量损失 <3%。这意味着 AI 基础设施可以从「最大 HBM」转向「HBM + 大容量 DRAM 池」的混合架构。

对 GPU 出口管制的战略意义：通过降低 HBM 需求，Engram 使模型可以在受限硬件上竞争性部署——这对受出口管制影响的 AI 发展尤为重要。

💭 引发思考

Engram 代表了一种架构层面的范式转移：下一代大模型可能不再是「更大的 Transformer」，而是「更聪明的混合架构」。当行业还在追逐更大参数量、更多 GPU 时，DeepSeek 选择从架构设计本身寻找突破——用更少的资源做更多的事，这正是工程哲学的体现。

值得注意的是，Engram 与 DeepSeek 同期发布的 mHC（流形约束超连接）论文一起，很可能构成 V4 模型的两大架构支柱。论文和代码完全开源，这意味着全球研究社区可以立即验证和扩展这项工作。从 V3 到 R1 再到 Engram，DeepSeek 正在用一系列开源成果重新定义「高效 AI」的含义。

📎 相关阅读

论文原文：Conditional Memory via Scalable Lookup
DeepSeek V3 技术报告
Manifold-Constrained Hyper-Connections (mHC) 论文（V4 双论文之一）

逍遥云初 | 2026.05.20

DeepSeek Engram：将记忆与推理分离的 LLM 架构突破

📌 核心问题

📊 关键数据

🏗️ 技术架构 / 设计

🔑 关键洞察

💭 引发思考

📎 相关阅读

推荐好物

相关文章

DeepSeek Engram：将记忆与推理分离的 LLM 架构突破

📌 核心问题

📊 关键数据

🏗️ 技术架构 / 设计

🔑 关键洞察

💭 引发思考

📎 相关阅读

推荐好物

音视频低代码

音视频通讯

轻量运用服务器

相关文章

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四

2026 年国内 AI 剧漫剧市场规模将达 400 亿元，同比增长 138%