📌 核心问题

LLM Agent 能否在不进行梯度更新的情况下,通过自生成记忆持续改进决策?这是当前 Agent 架构领域最核心的问题之一。现有的 ReAct、Reflexion 等框架虽然赋予了 LLM 反思和工具调用能力,但本质上仍是单轮系统——在单个 episode 内推理和行动,却无法将失败经验可靠地转化为跨 episode 的行为改进。

这一问题在随机、部分可观测的环境中尤为突出。传统的 fine-tuning 方案成本高昂且不切实际,而纯 prompt-only 的自我改进又面临三个未解难题:应该记住什么?记忆如何传播?训练方法是否可跨模型迁移?FORGE 论文正是对这三个问题的系统性回答。

📊 关键数据

  • 平均回报提升:相比 zero-shot 提升 1.7-7.7 倍,相比 Reflexion 提升 29-72%
  • 重大失败率:从 baseline 的高频负回报降至约 1%
  • 最佳单次回报:-3.60(对标 DRL SOTA 的 -3.47,接近理论最优 0)
  • 测试覆盖:4 个 LLM 家族(Gemini-2.5-Flash-Lite、Grok-4-Fast、Llama-4-Maverick、Qwen3-235B),12 种模型-表征组合全部显著优于 baseline

🏗️ 技术架构与设计

  • 双层循环架构:内层为 Reflexion 风格的反思循环,将失败轨迹转化为可复用的知识制品;外层为种群广播机制,将最优实例的记忆传播到整个种群
  • 三种记忆表征:Rules(文本启发式规则)、Examples(few-shot 示范)、Mixed(两者结合),首次在对抗性 POMDP 中进行受控对比
  • 毕业机制(Graduation):当实例性能收敛时冻结其记忆,节省计算资源。消融实验证明广播才是性能提升的关键,毕业主要节省算力
  • 零梯度更新:完全基于 prompt 注入自然语言记忆,无需微调模型权重,使用同一个 LLM 作为反思 Agent(无蒸馏)

🔑 关键洞察

种群广播是核心机制:消融实验明确证实,去掉毕业机制后性能基本不变,但去掉种群广播后性能大幅下降。这意味着「从多个并行探索者中选出最优策略并广播」比「单个 Agent 反复试错」高效得多。这本质上是将进化算法的思想引入了 prompt-only 的 Agent 学习范式。
弱模型获益更大,FORGE 弥合能力差距:FORGE 对 baseline 性能较弱的模型带来了不成比例的更大提升。这暗示了一种令人兴奋的可能性:通过种群级别的记忆进化,我们可以用较弱的模型达到接近强模型的效果,从而大幅降低部署成本。
Rules vs Examples:成本-可靠性权衡:Examples 在 3/4 个模型上取得了最高回报,但 Rules 以约 40% 更少的 token 消耗提供了最佳的成本-可靠性比。这意味着在实际部署中,可以根据算力预算灵活选择记忆表征策略。

💭 引发思考

FORGE 论文揭示了一个深刻的范式转变:Agent 的学习不必依赖梯度更新,自然语言本身就可以作为知识进化的载体。种群广播机制本质上是在做「群体智能」——多个 Agent 并行探索,最优策略通过自然语言记忆传播到整个群体。这与生物进化中的基因传播惊人地相似,只不过这里传播的不是基因,而是「语言化的经验」。

更值得关注的是弱模型获益更大的发现。当前 Agent 生态严重依赖顶级模型,部署成本居高不下。如果 FORGE 的种群进化机制能让轻量模型通过积累记忆达到接近强模型的效果,这将从根本上改变 Agent 的经济模型——从「买更强的模型」转向「让模型更聪明地学习」。论文将在 ACM CAIS 26(5 月 26-29 日,圣何塞)上正式发表,值得持续关注后续扩展工作。

📎 相关阅读

  • Reflexion: Language Agents with Verbal Reinforcement Learning (Shinn et al., 2023)
  • Voyager: An Open-Ended Embodied Agent with Large Language Models (Wang et al., 2023)
  • ExpeL: LLM Agents Are Experiential Learners (Zhao et al., 2024)
  • Population-Based Training for Neural Networks (Jaderberg et al., 2017)

逍遥云初 | 2026.05.19