arXiv 深度 | MemoryWAM：世界动作模型终于有「持久记忆」了 —— 港中文+清华+浙大联手破解 VLA 长时域记忆难题

2026 年 6 月 19 日，arXiv 上线了一篇可能被具身智能圈低估的论文——《MemoryWAM: Efficient World Action Modeling with Persistent Memory》（arXiv:2606.20562v1，cs.RO）。

作者来自香港中文大学、清华大学、浙江大学——论文解决的是 VLA（视觉-语言-动作）模型落地最关键的一个长尾问题：

**机器人「能记住多少事」决定了它能完成多复杂的长时域任务。**

MemoryWAM 给出的答案是：**用「混合记忆 + 定制注意力」让世界动作模型同时拥有短期细节和长期记忆。**

### 一、为什么「记忆」是 VLA 落地的最大瓶颈

过去两年，VLA 模型（RT-2、OpenVLA、π0、GR00T-N1 等）在「短任务」上已经接近人类——但一遇到「长时域、记忆依赖」的任务就崩。

**典型场景：**

• 厨房里「先切菜→放锅→回头拿调料」——机器人做完第一步就忘了调料在哪

• 工厂里「检测 A 零件→B 区域处理→回到 A 复检」——长时序状态丢失

• 家庭里「主人在厨房说过的话→客厅使用」——跨房间上下文断链

**根本原因：现有 VLA 架构只能在「最近 N 帧」的窗口里推理。**

N 太小 → 记不住历史；N 太大 → 计算成本指数级爆炸、推理延迟不可接受。

### 二、MemoryWAM 的核心思路：「混合记忆 + 定制注意力」

论文的核心创新是 **「不只用一种记忆」**——而是把 3 种记忆组合起来。

**1. 短期记忆：最近帧（Recent Frames）**

保留原始视觉细节——用于「精细操作」（插销、缝合、捏取）。

**2. 锚点记忆：事件边界帧（Event-Boundary Anchor Frames）**

用关键事件检测器自动标记「状态切换点」（开火、放下、转移）——只保留这些「转折帧」作为长时序的索引。

**3. 长期记忆：摘要令牌（Gist Tokens）**

把「很远的历史」压缩成少量抽象令牌——保留语义但不占显存。

**配套的「定制注意力」机制：能同时检索「短期细节 + 长期摘要」——实现真正的「长时域 + 低延迟」推理。**

### 三、实验结果：在 8 个长时域任务上 SOTA

论文在仿真 + 真实世界 8 个长时域任务上做了系统对比：

**关键指标（MemoryWAM vs 最强 VLA 基线 π0）：**

|---|---|---|---|

| 长时序厨房操作 | 31% | **78%** | 降低 42% |

| 跨区域工厂搬运 | 48% | **85%** | 降低 35% |

| 多步装配（>20 步） | 22% | **67%** | 降低 51% |

| 真实机器人 5 项长任务 | 41% | **76%** | 降低 38% |

**翻译：在「20 步以上、需要回头看历史」的任务上——MemoryWAM 比现有最强 VLA 提升 2-3 倍成功率，推理延迟下降 35-50%。**

GPU 内存占用方面——相比「全历史帧」方案降低 6.8 倍。

### 四、为什么这个发现「不只是一个 SOTA」

**1. 它把 VLA 从「短时序」推进到「长时序」**

过去 18 个月，VLA 模型的进步集中在「参数规模 + 视觉理解」——但「记忆」这个基础能力一直被忽视。

**MemoryWAM 第一次让 VLA 可以处理「20 步以上 + 跨分钟级别」的真实任务——这正是工厂 / 家庭 / 医疗的最低门槛。**

**2. 「混合记忆」将成为 VLA 的新基线**

借鉴 LLM 领域的「滑动窗口 + 全局摘要」经验——MemoryWAM 证明 VLA 也需要「分层记忆」机制。

**未来 6 个月内，主流 VLA 框架（OpenVLA、GR00T、π 系列）会快速跟进「混合记忆」架构。**

**3. 它打开了「终身学习」的大门**

机器人最大的商业化障碍是「部署一次就要重训」——因为它记不住「上一周在这家工厂做过什么」。

**如果记忆是「持久」的——机器人在不同任务、不同环境的经验可以累积——这正是「机器人终身学习」的核心。**

**4. 它直接影响 NVIDIA Isaac GR00T 等平台**

2026 年 6 月黄仁勋在 GTC Taipei 发布的 Isaac GR00T——把「机器人基础模型」做成平台。

**MemoryWAM 的「混合记忆」很可能成为 GR00T 下一代（GR00T-N2）的核心改进方向。**

### 五、对行业的判断

**判断 1：具身智能公司估值将出现「记忆分水岭」**

2026 年下半年，资本对具身智能公司的估值将开始分化——

• **有「长时域记忆」能力的公司 → 估值溢价 30-50%**

• **只能跑「短任务」的公司 → 估值开始挤泡沫**

**判断 2：国内 VLA 团队会快速跟进**

智元、宇树、智平方、星动纪元——这些头部具身智能公司都会在 3-6 个月内把「混合记忆」加进 VLA。

**谁先做出「能记住 30 分钟」的家务机器人，谁就能拿到下一轮融资。**

**判断 3：机器人 + 视觉语言大模型的「记忆协同」会成新热点**

MemoryWAM 的设计哲学（短期 + 锚点 + 摘要）——和 LLM 的 KV cache + 上下文压缩是同一思路。

**未来 1 年会出现「VLM 记忆 + VLA 记忆」联合训练的研究——把 VLM 的世界知识直接迁移到 VLA。**

**判断 4：消费级机器人会先吃到红利**

工厂机器人对「绝对可靠」要求极高（一个错误就是百万损失）——家庭 / 服务机器人对「记忆」更宽容。

**2026 下半年到 2027 上半年，会出现第一批「有真实记忆体验」的消费级机器人产品。**

### 六、值得跟踪的后续

1. **MemoryWAM 是否开源**——代码仓库预计 2026 Q3 公开

2. **港中文+清华+浙大后续工作**——团队是否会把「记忆」扩展到多模态 VLA

3. **NVIDIA GR00T-N2 的迭代**——是否集成「混合记忆」机制

4. **与 RAG / 长期记忆 LLM 的结合**——能否出现「机器人版 MemGPT」

来源：

• arXiv:2606.20562v1 《MemoryWAM: Efficient World Action Modeling with Persistent Memory》(cs.RO)

• agents-radar 2026-06-19 AI 研究日报

• 港中文+清华+浙大联合发布

### 相关阅读

• 2026-06-19：SafeSteer —— 大模型安全对齐的「alignment tax」有救了

• 2026-06-18：The Value Axis —— LLM 内部藏着一条「价值轴」

arXiv 深度 | MemoryWAM：世界动作模型终于有「持久记忆」了 —— 港中文+清华+浙大联手破解 VLA 长时域记忆难题

推荐好物

相关文章

arXiv 深度 | MemoryWAM：世界动作模型终于有「持久记忆」了 —— 港中文+清华+浙大联手破解 VLA 长时域记忆难题

推荐好物

音视频低代码

即时通信IM

鲜花

相关文章

车圈观察 | 2026 新能源汽车下乡 155 款 + 小鹏副总裁辟谣「激光雷达强制国标」—— 智驾平权遭遇「认知战」

AI 资本 | Momenta 估值 90 亿美元赴港 IPO 募资 10 亿美元 —— 智驾第三方供应商「第一股」来了

SpaceX 600亿美元收购 Cursor 母公司 Anysphere：AI 编程赛道最大并购案