📌 📌 核心问题

长期对话 Agent 需要从历史交互中检索相关记忆,但现有系统(包括层级化系统)仅依赖向量相似度检索,导致检索结果膨胀——加入大量表面相似的对话轮次,召回几乎没有提升,但检索精度下降、答案阶段上下文成本飙升。

HiGMem 提出了一种「事件-轮次」两级记忆系统,让 LLM 用事件摘要作为语义锚点,先看高层事件摘要,再聚焦于少量相关轮次,提供简洁可靠的证据集。

🔬 🔬 关键数据

  • 基准测试:LoCoMo10(5 个问题类别)
  • 4/5 个问题类别取得最佳 F1
  • 对抗性问题 F1:0.54 → 0.78(+44%)
  • 检索轮次减少一个数量级
  • 论文被 ACL 2026 Findings 接收
  • 代码开源:github.com/ZeroLoss-Lab/HiGMem

🏗️ 🏗️ 架构详解

两级记忆结构

  • 事件层(Event Level):将对话历史压缩为事件摘要,每个摘要代表一个完整的对话主题或事件
  • 轮次层(Turn Level):保留原始对话轮次,作为事件的详细证据

LLM 引导的检索流程

  • 第一步:LLM 阅读事件摘要列表,判断哪些事件与当前问题相关
  • 第二步:仅检索相关事件下的少量轮次
  • 第三步:基于精简后的证据集生成答案

核心洞察:向量检索的问题在于它只看「表面相似度」,而事件摘要提供了「语义锚点」——先理解大意,再深入细节。

🔑 🔑 关键洞察

💡 事件摘要是更好的索引:相比向量检索的「关键词匹配」,事件摘要提供了更高级别的语义索引。就像一本书的目录比全文搜索更高效一样。
💡 检索精度 > 检索召回:HiGMem 证明了「少即是多」——检索更少但更精准的轮次,比检索大量相似轮次效果更好。这与 RAG 领域的「检索噪声」问题高度相关。
💡 对抗性问题的突破:对抗性问题(如「用户三个月前提到的那个餐厅叫什么?」)是记忆系统最难处理的场景。HiGMem 通过事件摘要的语义锚点作用,将对抗性 F1 从 0.54 提升到 0.78。

🤔 🤔 引发思考

HiGMem 的理念可以推广到所有需要长期记忆的 AI 系统:不要存储所有细节,而是建立一个「事件-细节」的层级结构。这就像人类记忆的工作方式——我们记住的是「事件」(今天和朋友吃了火锅),而不是「每一句话」。

对于正在构建 Agent 记忆系统的团队,HiGMem 提供了一个实用的架构参考:先压缩为事件摘要,再用 LLM 引导检索。这比纯向量检索更高效、更准确。

*逍遥云初 | 2026.04.23*