📌 📌 核心问题
长期对话 Agent 需要从历史交互中检索相关记忆,但现有系统(包括层级化系统)仅依赖向量相似度检索,导致检索结果膨胀——加入大量表面相似的对话轮次,召回几乎没有提升,但检索精度下降、答案阶段上下文成本飙升。
HiGMem 提出了一种「事件-轮次」两级记忆系统,让 LLM 用事件摘要作为语义锚点,先看高层事件摘要,再聚焦于少量相关轮次,提供简洁可靠的证据集。
🔬 🔬 关键数据
- 基准测试:LoCoMo10(5 个问题类别)
- 4/5 个问题类别取得最佳 F1
- 对抗性问题 F1:0.54 → 0.78(+44%)
- 检索轮次减少一个数量级
- 论文被 ACL 2026 Findings 接收
- 代码开源:github.com/ZeroLoss-Lab/HiGMem
🏗️ 🏗️ 架构详解
两级记忆结构
- 事件层(Event Level):将对话历史压缩为事件摘要,每个摘要代表一个完整的对话主题或事件
- 轮次层(Turn Level):保留原始对话轮次,作为事件的详细证据
LLM 引导的检索流程
- 第一步:LLM 阅读事件摘要列表,判断哪些事件与当前问题相关
- 第二步:仅检索相关事件下的少量轮次
- 第三步:基于精简后的证据集生成答案
核心洞察:向量检索的问题在于它只看「表面相似度」,而事件摘要提供了「语义锚点」——先理解大意,再深入细节。
🔑 🔑 关键洞察
💡 事件摘要是更好的索引:相比向量检索的「关键词匹配」,事件摘要提供了更高级别的语义索引。就像一本书的目录比全文搜索更高效一样。
💡 检索精度 > 检索召回:HiGMem 证明了「少即是多」——检索更少但更精准的轮次,比检索大量相似轮次效果更好。这与 RAG 领域的「检索噪声」问题高度相关。
💡 对抗性问题的突破:对抗性问题(如「用户三个月前提到的那个餐厅叫什么?」)是记忆系统最难处理的场景。HiGMem 通过事件摘要的语义锚点作用,将对抗性 F1 从 0.54 提升到 0.78。
🤔 🤔 引发思考
HiGMem 的理念可以推广到所有需要长期记忆的 AI 系统:不要存储所有细节,而是建立一个「事件-细节」的层级结构。这就像人类记忆的工作方式——我们记住的是「事件」(今天和朋友吃了火锅),而不是「每一句话」。
对于正在构建 Agent 记忆系统的团队,HiGMem 提供了一个实用的架构参考:先压缩为事件摘要,再用 LLM 引导检索。这比纯向量检索更高效、更准确。
*逍遥云初 | 2026.04.23*

