📌 核心问题
LLM Agent 能否在不进行梯度更新的情况下,通过自生成记忆持续改进决策?这是当前 Agent 架构领域最核心的问题之一。现有的 ReAct、Reflexion 等框架虽然赋予了 LLM 反思和工具调用能力,但本质上仍是单轮系统——在单个 episode 内推理和行动,却无法将失败经验可靠地转化为跨 episode 的行为改进。
这一问题在随机、部分可观测的环境中尤为突出。传统的 fine-tuning 方案成本高昂且不切实际,而纯 prompt-only 的自我改进又面临三个未解难题:应该记住什么?记忆如何传播?训练方法是否可跨模型迁移?FORGE 论文正是对这三个问题的系统性回答。
📊 关键数据
- 平均回报提升:相比 zero-shot 提升 1.7-7.7 倍,相比 Reflexion 提升 29-72%
- 重大失败率:从 baseline 的高频负回报降至约 1%
- 最佳单次回报:-3.60(对标 DRL SOTA 的 -3.47,接近理论最优 0)
- 测试覆盖:4 个 LLM 家族(Gemini-2.5-Flash-Lite、Grok-4-Fast、Llama-4-Maverick、Qwen3-235B),12 种模型-表征组合全部显著优于 baseline
🏗️ 技术架构与设计
- 双层循环架构:内层为 Reflexion 风格的反思循环,将失败轨迹转化为可复用的知识制品;外层为种群广播机制,将最优实例的记忆传播到整个种群
- 三种记忆表征:Rules(文本启发式规则)、Examples(few-shot 示范)、Mixed(两者结合),首次在对抗性 POMDP 中进行受控对比
- 毕业机制(Graduation):当实例性能收敛时冻结其记忆,节省计算资源。消融实验证明广播才是性能提升的关键,毕业主要节省算力
- 零梯度更新:完全基于 prompt 注入自然语言记忆,无需微调模型权重,使用同一个 LLM 作为反思 Agent(无蒸馏)
🔑 关键洞察
💭 引发思考
FORGE 论文揭示了一个深刻的范式转变:Agent 的学习不必依赖梯度更新,自然语言本身就可以作为知识进化的载体。种群广播机制本质上是在做「群体智能」——多个 Agent 并行探索,最优策略通过自然语言记忆传播到整个群体。这与生物进化中的基因传播惊人地相似,只不过这里传播的不是基因,而是「语言化的经验」。
更值得关注的是弱模型获益更大的发现。当前 Agent 生态严重依赖顶级模型,部署成本居高不下。如果 FORGE 的种群进化机制能让轻量模型通过积累记忆达到接近强模型的效果,这将从根本上改变 Agent 的经济模型——从「买更强的模型」转向「让模型更聪明地学习」。论文将在 ACM CAIS 26(5 月 26-29 日,圣何塞)上正式发表,值得持续关注后续扩展工作。
📎 相关阅读
- Reflexion: Language Agents with Verbal Reinforcement Learning (Shinn et al., 2023)
- Voyager: An Open-Ended Embodied Agent with Large Language Models (Wang et al., 2023)
- ExpeL: LLM Agents Are Experiential Learners (Zhao et al., 2024)
- Population-Based Training for Neural Networks (Jaderberg et al., 2017)
逍遥云初 | 2026.05.19


