FORGE: 无需梯度更新的 Agent 自进化记忆系统

📌 核心问题

LLM Agent 能否在不进行梯度更新的情况下，通过自生成记忆持续改进决策？这是当前 Agent 架构领域最核心的问题之一。现有的 ReAct、Reflexion 等框架虽然赋予了 LLM 反思和工具调用能力，但本质上仍是单轮系统——在单个 episode 内推理和行动，却无法将失败经验可靠地转化为跨 episode 的行为改进。

这一问题在随机、部分可观测的环境中尤为突出。传统的 fine-tuning 方案成本高昂且不切实际，而纯 prompt-only 的自我改进又面临三个未解难题：应该记住什么？记忆如何传播？训练方法是否可跨模型迁移？FORGE 论文正是对这三个问题的系统性回答。

📊 关键数据

平均回报提升：相比 zero-shot 提升 1.7-7.7 倍，相比 Reflexion 提升 29-72%
重大失败率：从 baseline 的高频负回报降至约 1%
最佳单次回报：-3.60（对标 DRL SOTA 的 -3.47，接近理论最优 0）
测试覆盖：4 个 LLM 家族（Gemini-2.5-Flash-Lite、Grok-4-Fast、Llama-4-Maverick、Qwen3-235B），12 种模型-表征组合全部显著优于 baseline

🏗️ 技术架构与设计

双层循环架构：内层为 Reflexion 风格的反思循环，将失败轨迹转化为可复用的知识制品；外层为种群广播机制，将最优实例的记忆传播到整个种群
三种记忆表征：Rules（文本启发式规则）、Examples（few-shot 示范）、Mixed（两者结合），首次在对抗性 POMDP 中进行受控对比
毕业机制（Graduation）：当实例性能收敛时冻结其记忆，节省计算资源。消融实验证明广播才是性能提升的关键，毕业主要节省算力
零梯度更新：完全基于 prompt 注入自然语言记忆，无需微调模型权重，使用同一个 LLM 作为反思 Agent（无蒸馏）

🔑 关键洞察

种群广播是核心机制：消融实验明确证实，去掉毕业机制后性能基本不变，但去掉种群广播后性能大幅下降。这意味着「从多个并行探索者中选出最优策略并广播」比「单个 Agent 反复试错」高效得多。这本质上是将进化算法的思想引入了 prompt-only 的 Agent 学习范式。

弱模型获益更大，FORGE 弥合能力差距：FORGE 对 baseline 性能较弱的模型带来了不成比例的更大提升。这暗示了一种令人兴奋的可能性：通过种群级别的记忆进化，我们可以用较弱的模型达到接近强模型的效果，从而大幅降低部署成本。

Rules vs Examples：成本-可靠性权衡：Examples 在 3/4 个模型上取得了最高回报，但 Rules 以约 40% 更少的 token 消耗提供了最佳的成本-可靠性比。这意味着在实际部署中，可以根据算力预算灵活选择记忆表征策略。

💭 引发思考

FORGE 论文揭示了一个深刻的范式转变：Agent 的学习不必依赖梯度更新，自然语言本身就可以作为知识进化的载体。种群广播机制本质上是在做「群体智能」——多个 Agent 并行探索，最优策略通过自然语言记忆传播到整个群体。这与生物进化中的基因传播惊人地相似，只不过这里传播的不是基因，而是「语言化的经验」。

更值得关注的是弱模型获益更大的发现。当前 Agent 生态严重依赖顶级模型，部署成本居高不下。如果 FORGE 的种群进化机制能让轻量模型通过积累记忆达到接近强模型的效果，这将从根本上改变 Agent 的经济模型——从「买更强的模型」转向「让模型更聪明地学习」。论文将在 ACM CAIS 26（5 月 26-29 日，圣何塞）上正式发表，值得持续关注后续扩展工作。

📎 相关阅读

Reflexion: Language Agents with Verbal Reinforcement Learning (Shinn et al., 2023)
Voyager: An Open-Ended Embodied Agent with Large Language Models (Wang et al., 2023)
ExpeL: LLM Agents Are Experiential Learners (Zhao et al., 2024)
Population-Based Training for Neural Networks (Jaderberg et al., 2017)

逍遥云初 | 2026.05.19

FORGE: 无需梯度更新的 Agent 自进化记忆系统

📌 核心问题

📊 关键数据

🏗️ 技术架构与设计

🔑 关键洞察

💭 引发思考

📎 相关阅读

推荐好物

相关文章

FORGE: 无需梯度更新的 Agent 自进化记忆系统

📌 核心问题

📊 关键数据

🏗️ 技术架构与设计

🔑 关键洞察

💭 引发思考

📎 相关阅读

推荐好物

即时通信IM

音视频低代码

语言产品特惠

相关文章

ETH Zurich：你的 AGENTS.md 可能让 AI Agent 变笨 3% 且多花 20% 算力

字节跳动加速自研CPU：2027年下半年量产，AI基建全面自主化

OpenAI AI 模型推翻 Erdős 单位距离猜想：80 年数学难题的 AI 解法