LLM Agent需要多少LLM？自我修正Agent的能力解构

基于LLM的Agent通常将世界建模、规划和反思都放在同一个语言模型循环中。这带来了一个难以回答的科学问题：Agent的能力中，哪些真正来自LLM，哪些来自外部结构？

研究引入了一个声明式反思运行时协议，将Agent状态、置信度信号、受保护动作和假设转换外部化为可检查的运行时结构。在「噪声协作战舰」任务上评估了四个逐步结构化的Agent。核心创新：将Agent的四大能力解耦——后验信念追踪、显式世界模型规划、符号周期内反思、稀疏LLM修正。

最反直觉的发现：LLM修正只参与4.3%的决策，却产生了非单调的影响——平均F1微升，但胜率反而下降。这说明LLM介入并非总是正面的，在某些关键决策点上，不干预反而更好。找到LLM介入的最优比例和时机，比盲目增加LLM参与更重要。

显式世界模型规划带来的提升（+24.1pp胜率）远大于LLM修正的贡献。这暗示：Agent的设计重点应该放在外部结构（规划、记忆、信念追踪）上，而非单纯依赖更大的LLM。

推荐好物