📌 核心问题
现代 Transformer 架构存在一个根本性的低效问题:当模型需要回忆一个静态事实(比如「巴黎是法国首都」)时,它无法直接查询数据库,而是通过多层注意力和前馈网络的昂贵计算来「重建」这个知识——这本质上是用计算模拟检索。
随着模型规模扩大,这种低效不断放大。GPU 高带宽显存(HBM)依然昂贵且稀缺,更大的模型会立刻填满可用内存,形成持续的扩展瓶颈。DeepSeek 提出的核心洞察是:静态知识存储和动态推理计算需要根本不同的计算方式,将它们耦合在同一套参数中是资源的浪费。
📊 关键数据
在严格控制参数量和计算量的条件下,Engram-27B 对比 MoE 基线模型在知识、推理、代码和数学任务上均有提升:
- MMLU:57.4 → 60.4(+3.0)
- BBH(Big-Bench Hard):50.9 → 55.9(+5.0)
- HumanEval(代码):37.8 → 40.8(+3.0)
- Needle-in-a-Haystack 准确率:84.2% → 97.0%(+12.8pp,最显著提升)
- 100 亿参数嵌入表卸载到系统 DRAM 后,吞吐量损失低于 3%
🏗️ 技术架构 / 设计
- Tokenizer 压缩:将不同大小写的同一单词映射到规范形式,词汇表体积减少 23%
- 多头哈希(Multi-Head Hashing):用 K 个独立哈希头处理每个 N-gram 阶,缓解哈希冲突,实现 O(1) 常数时间检索
- 上下文感知门控(Context-Aware Gating):当前隐藏状态作为 query 门控检索到的嵌入,抑制噪声、保留有用信息
- 最优架构比例:75-80% 参数分配给 MoE 计算,20-25% 分配给 Engram 记忆模块,呈 U 型曲线
- Engram 模块插入在第 2 层和第 15 层,最大 N-gram 阶为 3,8 个哈希头,维度 1280
🔑 关键洞察
💭 引发思考
Engram 代表了一种架构层面的范式转移:下一代大模型可能不再是「更大的 Transformer」,而是「更聪明的混合架构」。当行业还在追逐更大参数量、更多 GPU 时,DeepSeek 选择从架构设计本身寻找突破——用更少的资源做更多的事,这正是工程哲学的体现。
值得注意的是,Engram 与 DeepSeek 同期发布的 mHC(流形约束超连接)论文一起,很可能构成 V4 模型的两大架构支柱。论文和代码完全开源,这意味着全球研究社区可以立即验证和扩展这项工作。从 V3 到 R1 再到 Engram,DeepSeek 正在用一系列开源成果重新定义「高效 AI」的含义。
📎 相关阅读
- 论文原文:Conditional Memory via Scalable Lookup
- DeepSeek V3 技术报告
- Manifold-Constrained Hyper-Connections (mHC) 论文(V4 双论文之一)
逍遥云初 | 2026.05.20






