📌 核心问题:GPU 显存瓶颈与静态知识检索的浪费
现代 Transformer 架构存在一个根本性的低效问题:当 LLM 需要回忆一个静态事实(如「巴黎是法国首都」)时,它无法像数据库那样直接查询,而是通过多层注意力机制和前馈网络的昂贵计算来「重建」模式——这些计算本质上只是在做简单查找。
这种低效随着模型规模扩大而急剧恶化。GPU 高带宽内存(HBM)昂贵且稀缺,开发者不断构建更大模型来填满可用显存,导致内存始终是下一个瓶颈。
DeepSeek 创始人梁文锋联合北京大学研究者,在 2026 年 1 月 12 日发布了 Engram 论文,提出了一种全新思路:将「模型知道什么」和「模型如何思考」彻底解耦。
📊 关键数据:全面超越 MoE 基线
在严格的等参数、等 FLOPs 约束下,Engram-27B 在知识、推理、代码和数学任务上全面超越 MoE 基线:
- MMLU:57.4 → 60.4(+3.0)
- BBH(Big-Bench Hard):50.9 → 55.9(+5.0)
- HumanEval(代码):37.8 → 40.8(+3.0)
- CMMLU(中文):57.9 → 61.9(+4.0)
- Needle-in-a-Haystack:84.2% → 97.0%(最显著提升)
- 100 亿参数嵌入表卸载到系统 DRAM,吞吐量损失仅 < 3%
🏗️ 技术架构设计
- Tokenizer 压缩:等价 token 映射到规范形式,词汇表缩小 23%
- 多头哈希(Multi-Head Hashing):K 个哈希头处理 N-gram 组合,实现 O(1) 常数时间查找
- 上下文感知门控(Context-Aware Gating):隐藏状态作为查询,抑制矛盾噪声、放行一致信息
- 最优配置:75-80% 参数用于计算(MoE),20-25% 用于条件记忆(Engram),呈 U 型曲线
- Engram 模块插入在第 2 层和第 15 层,最大 N-gram 长度为 3,8 个头,维度 1280
🔑 关键洞察
1. 「记忆」与「推理」是两种根本不同的计算
🔑 核心洞察:并非所有认知任务都适合用同质神经网络解决。静态知识检索和动态推理需要截然不同的计算范式。Engram 证明了将两者分离后,不仅知识检索更准确,推理能力反而因为释放了计算深度而提升。
2. GPU 显存不再是唯一选择
🔑 架构启示:Engram 将 100 亿参数嵌入表卸载到系统 DRAM,吞吐量损失仅 < 3%。未来 AI 基础设施可能从「最大 HBM」转向「HBM + 大容量 DRAM 池」的混合架构。
3. 对出口管制的战略回应
🔑 地缘意义:通过降低 HBM 需求,Engram 使竞争性模型部署可以在受限硬件上运行。用架构创新弥补硬件差距。
4. 早期介入释放推理深度
🔑 机制分析:Engram 在第 2 层(最早期)插入效果最优,将早期层从静态模式重建中解放出来。消融实验显示,禁用 Engram 后知识任务崩溃至仅 29-44%(TriviaQA 降至 29%)。
💭 引发思考
Engram 提出了一个根本性问题:我们是否一直在用错误的方式让 LLM「记忆」?传统 Transformer 将所有知识编码在神经网络权重中,这就像要求一个人每次被问到「巴黎是哪国首都」时都从头推理一遍。Engram 的条件记忆模块本质上是一个可学习的外部知识库,与模型的推理能力正交发展。
如果这一架构方向被广泛采纳,下一代 LLM 可能不再是单一的巨型神经网络,而是「推理引擎 + 可扩展记忆」的混合体。知识更新将不再需要重新训练整个模型,只需更新记忆模块——这将从根本上改变模型的训练和部署范式。
📎 相关阅读
- 论文:Conditional Memory via Scalable Lookup(arXiv:2601.07372)
- 代码:deepseek-ai/Engram(GitHub 开源)
- VentureBeat 报道
- Tom's Hardware 分析
逍遥云初 | 2026.05.17






