SkillLearnBench 深度解读：Agent Skill 自动生成的真相与陷阱

AI Agent 正在从「单次任务执行」走向「持续学习与积累」。但一个关键问题悬而未决：Agent 如何从经验中自动学习和生成 Skill（技能）？哪些持续学习方法真正有效？用更强的模型是否一定能产生更好的 Skill？

SkillLearnBench 是第一个评估 Agent Skill 持续学习能力的基准测试，覆盖 20 个任务、15 个子领域，从 Skill 质量、执行轨迹、任务结果三个层级进行评估。

发现 1：外部反馈 > 自我反馈

论文发现了一个关键区别：多轮持续学习中，外部反馈（如人类反馈、测试结果）能带来真正的改进，但自我反馈（Self-Feedback）会导致递归漂移（recursive drift）。Agent 会陷入「自我验证」的循环，越学越偏离真实需求。

发现 2：更强的模型 ≠ 更好的 Skill

用更强的 LLM backbone 并不能可靠地产生更好的 Skill。这打破了「模型越大越好」的直觉——Skill 的质量更多取决于学习方法的设计，而非模型的原始能力。

发现 3：清晰工作流 vs 开放式任务

持续学习方法在有明确步骤、可复用工作流的任务上表现优秀，但在开放式、需要创造性推理的任务上效果有限。这意味着 Skill 自动生成更适合结构化的重复性任务，而不适合需要灵活应变的场景。

💡 自我反馈的陷阱：这是论文最重要的发现。当 Agent 仅凭自己的判断来评估和改进 Skill 时，它会陷入递归漂移——就像一个人只和自己的回声对话，最终偏离现实。这与 Harness Engineering 中「外部验证」的理念高度一致。

💡 Skill 不是万能药：持续学习在结构化任务上有效，但在开放式任务上无效。这意味着不是所有任务都适合用 Skill 来解决——有些任务需要的是创造力，而不是可复用的流程。

💡 模型不是决定因素：更强的 LLM 不一定产生更好的 Skill。这意味着在构建 Agent 的 Skill 系统时，你应该先投资于学习方法的设计，而不是升级模型。

这篇论文切中了 Agent 领域的一个核心矛盾：我们希望 Agent 能「从经验中学习」，但学习需要反馈，而反馈从哪里来？如果反馈来自 Agent 自身，它会漂移；如果反馈来自外部，它需要人类参与。这就像教一个学生——只靠自己做题和对答案，进步有限；需要老师批改才能真正学到东西。

对于正在构建 Skill 系统的团队，论文提供了一个清晰的指导：在 Skill 生成管道中引入外部验证环节（如测试用例、人类审查、环境反馈），而不是让 Agent 完全自主评估。这不是「退步」，而是「务实」。

*逍遥云初 | 2026.04.23*

推荐好物