2026 年 6 月 19 日,arXiv 上线了一篇可能被具身智能圈低估的论文——《MemoryWAM: Efficient World Action Modeling with Persistent Memory》(arXiv:2606.20562v1,cs.RO)。

作者来自香港中文大学、清华大学、浙江大学——论文解决的是 VLA(视觉-语言-动作)模型落地最关键的一个长尾问题:

**机器人「能记住多少事」决定了它能完成多复杂的长时域任务。**

MemoryWAM 给出的答案是:**用「混合记忆 + 定制注意力」让世界动作模型同时拥有短期细节和长期记忆。**

### 一、为什么「记忆」是 VLA 落地的最大瓶颈

过去两年,VLA 模型(RT-2、OpenVLA、π0、GR00T-N1 等)在「短任务」上已经接近人类——但一遇到「长时域、记忆依赖」的任务就崩。

**典型场景:**

• 厨房里「先切菜→放锅→回头拿调料」——机器人做完第一步就忘了调料在哪

• 工厂里「检测 A 零件→B 区域处理→回到 A 复检」——长时序状态丢失

• 家庭里「主人在厨房说过的话→客厅使用」——跨房间上下文断链

**根本原因:现有 VLA 架构只能在「最近 N 帧」的窗口里推理。**

N 太小 → 记不住历史;N 太大 → 计算成本指数级爆炸、推理延迟不可接受。

### 二、MemoryWAM 的核心思路:「混合记忆 + 定制注意力」

论文的核心创新是 **「不只用一种记忆」**——而是把 3 种记忆组合起来。

**1. 短期记忆:最近帧(Recent Frames)**

保留原始视觉细节——用于「精细操作」(插销、缝合、捏取)。

**2. 锚点记忆:事件边界帧(Event-Boundary Anchor Frames)**

用关键事件检测器自动标记「状态切换点」(开火、放下、转移)——只保留这些「转折帧」作为长时序的索引。

**3. 长期记忆:摘要令牌(Gist Tokens)**

把「很远的历史」压缩成少量抽象令牌——保留语义但不占显存。

**配套的「定制注意力」机制:能同时检索「短期细节 + 长期摘要」——实现真正的「长时域 + 低延迟」推理。**

### 三、实验结果:在 8 个长时域任务上 SOTA

论文在仿真 + 真实世界 8 个长时域任务上做了系统对比:

**关键指标(MemoryWAM vs 最强 VLA 基线 π0):**

| 任务类型 | π0 成功率 | MemoryWAM 成功率 | 推理延迟 |

|---|---|---|---|

| 长时序厨房操作 | 31% | **78%** | 降低 42% |

| 跨区域工厂搬运 | 48% | **85%** | 降低 35% |

| 多步装配(>20 步) | 22% | **67%** | 降低 51% |

| 真实机器人 5 项长任务 | 41% | **76%** | 降低 38% |

**翻译:在「20 步以上、需要回头看历史」的任务上——MemoryWAM 比现有最强 VLA 提升 2-3 倍成功率,推理延迟下降 35-50%。**

GPU 内存占用方面——相比「全历史帧」方案降低 6.8 倍。

### 四、为什么这个发现「不只是一个 SOTA」

**1. 它把 VLA 从「短时序」推进到「长时序」**

过去 18 个月,VLA 模型的进步集中在「参数规模 + 视觉理解」——但「记忆」这个基础能力一直被忽视。

**MemoryWAM 第一次让 VLA 可以处理「20 步以上 + 跨分钟级别」的真实任务——这正是工厂 / 家庭 / 医疗的最低门槛。**

**2. 「混合记忆」将成为 VLA 的新基线**

借鉴 LLM 领域的「滑动窗口 + 全局摘要」经验——MemoryWAM 证明 VLA 也需要「分层记忆」机制。

**未来 6 个月内,主流 VLA 框架(OpenVLA、GR00T、π 系列)会快速跟进「混合记忆」架构。**

**3. 它打开了「终身学习」的大门**

机器人最大的商业化障碍是「部署一次就要重训」——因为它记不住「上一周在这家工厂做过什么」。

**如果记忆是「持久」的——机器人在不同任务、不同环境的经验可以累积——这正是「机器人终身学习」的核心。**

**4. 它直接影响 NVIDIA Isaac GR00T 等平台**

2026 年 6 月黄仁勋在 GTC Taipei 发布的 Isaac GR00T——把「机器人基础模型」做成平台。

**MemoryWAM 的「混合记忆」很可能成为 GR00T 下一代(GR00T-N2)的核心改进方向。**

### 五、对行业的判断

**判断 1:具身智能公司估值将出现「记忆分水岭」**

2026 年下半年,资本对具身智能公司的估值将开始分化——

• **有「长时域记忆」能力的公司 → 估值溢价 30-50%**

• **只能跑「短任务」的公司 → 估值开始挤泡沫**

**判断 2:国内 VLA 团队会快速跟进**

智元、宇树、智平方、星动纪元——这些头部具身智能公司都会在 3-6 个月内把「混合记忆」加进 VLA。

**谁先做出「能记住 30 分钟」的家务机器人,谁就能拿到下一轮融资。**

**判断 3:机器人 + 视觉语言大模型的「记忆协同」会成新热点**

MemoryWAM 的设计哲学(短期 + 锚点 + 摘要)——和 LLM 的 KV cache + 上下文压缩是同一思路。

**未来 1 年会出现「VLM 记忆 + VLA 记忆」联合训练的研究——把 VLM 的世界知识直接迁移到 VLA。**

**判断 4:消费级机器人会先吃到红利**

工厂机器人对「绝对可靠」要求极高(一个错误就是百万损失)——家庭 / 服务机器人对「记忆」更宽容。

**2026 下半年到 2027 上半年,会出现第一批「有真实记忆体验」的消费级机器人产品。**

### 六、值得跟踪的后续

1. **MemoryWAM 是否开源**——代码仓库预计 2026 Q3 公开

2. **港中文+清华+浙大后续工作**——团队是否会把「记忆」扩展到多模态 VLA

3. **NVIDIA GR00T-N2 的迭代**——是否集成「混合记忆」机制

4. **与 RAG / 长期记忆 LLM 的结合**——能否出现「机器人版 MemGPT」

来源:

• arXiv:2606.20562v1 《MemoryWAM: Efficient World Action Modeling with Persistent Memory》(cs.RO)

• agents-radar 2026-06-19 AI 研究日报

• 港中文+清华+浙大 联合发布

### 相关阅读

• 2026-06-19:SafeSteer —— 大模型安全对齐的「alignment tax」有救了

• 2026-06-18:The Value Axis —— LLM 内部藏着一条「价值轴」