DeepSeek Engram 条件记忆架构：将「知道什么」与「如何思考」彻底解耦

📌 核心问题：GPU 显存瓶颈与静态知识检索的浪费

现代 Transformer 架构存在一个根本性的低效问题：当 LLM 需要回忆一个静态事实（如「巴黎是法国首都」）时，它无法像数据库那样直接查询，而是通过多层注意力机制和前馈网络的昂贵计算来「重建」模式——这些计算本质上只是在做简单查找。

这种低效随着模型规模扩大而急剧恶化。GPU 高带宽内存（HBM）昂贵且稀缺，开发者不断构建更大模型来填满可用显存，导致内存始终是下一个瓶颈。

DeepSeek 创始人梁文锋联合北京大学研究者，在 2026 年 1 月 12 日发布了 Engram 论文，提出了一种全新思路：将「模型知道什么」和「模型如何思考」彻底解耦。

📊 关键数据：全面超越 MoE 基线

在严格的等参数、等 FLOPs 约束下，Engram-27B 在知识、推理、代码和数学任务上全面超越 MoE 基线：

MMLU：57.4 → 60.4（+3.0）
BBH（Big-Bench Hard）：50.9 → 55.9（+5.0）
HumanEval（代码）：37.8 → 40.8（+3.0）
CMMLU（中文）：57.9 → 61.9（+4.0）
Needle-in-a-Haystack：84.2% → 97.0%（最显著提升）
100 亿参数嵌入表卸载到系统 DRAM，吞吐量损失仅 < 3%

🏗️ 技术架构设计

Tokenizer 压缩：等价 token 映射到规范形式，词汇表缩小 23%
多头哈希（Multi-Head Hashing）：K 个哈希头处理 N-gram 组合，实现 O(1) 常数时间查找
上下文感知门控（Context-Aware Gating）：隐藏状态作为查询，抑制矛盾噪声、放行一致信息
最优配置：75-80% 参数用于计算（MoE），20-25% 用于条件记忆（Engram），呈 U 型曲线
Engram 模块插入在第 2 层和第 15 层，最大 N-gram 长度为 3，8 个头，维度 1280

🔑 关键洞察

1. 「记忆」与「推理」是两种根本不同的计算

🔑 核心洞察：并非所有认知任务都适合用同质神经网络解决。静态知识检索和动态推理需要截然不同的计算范式。Engram 证明了将两者分离后，不仅知识检索更准确，推理能力反而因为释放了计算深度而提升。

2. GPU 显存不再是唯一选择

🔑 架构启示：Engram 将 100 亿参数嵌入表卸载到系统 DRAM，吞吐量损失仅 < 3%。未来 AI 基础设施可能从「最大 HBM」转向「HBM + 大容量 DRAM 池」的混合架构。

3. 对出口管制的战略回应

🔑 地缘意义：通过降低 HBM 需求，Engram 使竞争性模型部署可以在受限硬件上运行。用架构创新弥补硬件差距。

4. 早期介入释放推理深度

🔑 机制分析：Engram 在第 2 层（最早期）插入效果最优，将早期层从静态模式重建中解放出来。消融实验显示，禁用 Engram 后知识任务崩溃至仅 29-44%（TriviaQA 降至 29%）。

💭 引发思考

Engram 提出了一个根本性问题：我们是否一直在用错误的方式让 LLM「记忆」？传统 Transformer 将所有知识编码在神经网络权重中，这就像要求一个人每次被问到「巴黎是哪国首都」时都从头推理一遍。Engram 的条件记忆模块本质上是一个可学习的外部知识库，与模型的推理能力正交发展。

如果这一架构方向被广泛采纳，下一代 LLM 可能不再是单一的巨型神经网络，而是「推理引擎 + 可扩展记忆」的混合体。知识更新将不再需要重新训练整个模型，只需更新记忆模块——这将从根本上改变模型的训练和部署范式。

📎 相关阅读

论文：Conditional Memory via Scalable Lookup（arXiv:2601.07372）
代码：deepseek-ai/Engram（GitHub 开源）
VentureBeat 报道
Tom's Hardware 分析

逍遥云初 | 2026.05.17

DeepSeek Engram 条件记忆架构：将「知道什么」与「如何思考」彻底解耦

📌 核心问题：GPU 显存瓶颈与静态知识检索的浪费

📊 关键数据：全面超越 MoE 基线

🏗️ 技术架构设计

🔑 关键洞察

1. 「记忆」与「推理」是两种根本不同的计算

2. GPU 显存不再是唯一选择

3. 对出口管制的战略回应

4. 早期介入释放推理深度

💭 引发思考

📎 相关阅读

推荐好物

相关文章

DeepSeek Engram 条件记忆架构：将「知道什么」与「如何思考」彻底解耦

📌 核心问题：GPU 显存瓶颈与静态知识检索的浪费

📊 关键数据：全面超越 MoE 基线

🏗️ 技术架构设计

🔑 关键洞察

1. 「记忆」与「推理」是两种根本不同的计算

2. GPU 显存不再是唯一选择

3. 对出口管制的战略回应

4. 早期介入释放推理深度

💭 引发思考

📎 相关阅读

推荐好物

家居日用

家用电器

音视频通讯

相关文章

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四

2026 年国内 AI 剧漫剧市场规模将达 400 亿元，同比增长 138%