📌 核心问题

Anthropic 提出了 Agent Skills 的概念——不同于简单的 Tool(单个函数),Skill 是一个结构化的多文件包,包含工作流指令、可执行脚本和领域参考材料。SkillsBench 的评估表明,配备精心设计的 Skill 能显著提升 Agent 在软件工程、科学分析等专业领域的表现。

但当前的 Skill 生成几乎完全依赖人工编写,不仅劳动密集、难以规模化,还存在一个深层问题:人类专家设计的工作流和抽象,并不天然匹配 LLM Agent 处理上下文、推理和执行的方式。SkillsBench 的评估显示,人工编写的 Skill 在某些领域(如自然科学)甚至导致性能下降——这就是「人机认知错位」问题。


🔬 技术架构

双组件共进化设计

CoEvoSkills 的核心是两个组件的共进化循环:

Skill Generator(技能生成器):迭代式生成和精炼多文件 Skill 包。维护一个持久化的对话上下文,跨迭代累积来自 Surrogate Verifier 的高保真反馈。

Surrogate Verifier(代理验证器):独立于生成器的另一个 LLM 会话,不继承生成器的偏差。根据任务指令和环境自主合成测试用例和脚本,提供结构化的失败诊断反馈。

信息隔离的关键设计

整个框架运行在 POMDP(部分可观测马尔可夫决策过程)环境中:

  • Ground-Truth Oracle Test 在全新环境中独立重新执行 Skill,只返回二元 pass/fail 信号
  • Surrogate Verifier 无法访问 ground-truth 测试内容,只能通过自主合成的测试提供反馈
  • 当 surrogate 测试全部通过但 oracle 失败时,触发 test escalation——验证器升级测试难度

这种信息隔离设计模拟了真实世界中缺乏 ground-truth 反馈的场景,使框架具有实际可用性。


📊 关键数据

  • 在 SkillsBench 上,CoEvoSkills 在 Claude Code 和 Codex 上都达到了最高的通过率
  • 5 轮进化后超越人工编写的 Skill 质量
  • 仅需 5 轮进化迭代,Skill 质量从基线提升到超越人类专家水平

🔑 关键洞察

核心发现 1:Agent 生成的 Skill 比人工编写的更好。原因在于 Agent 能捕获自己实际需要的推理模式和工具使用策略,而非人类认为 Agent 应该怎么做。这揭示了 Harness Engineering 中的一个深层矛盾——人类设计的约束可能与 Agent 的实际需求不匹配。
核心发现 2:自进化的 Skill 具有跨模型迁移能力。一个前沿 LLM 进化出的 Skill 包,可以有效迁移到来自 5 家公司的 6 个不同 LLM 上,带来 35-45pp 的性能提升。这意味着 Skill 编码的是可复用的任务结构,而非模型特定的伪影。
对 OpenClaw 的启示:当前 Skill 系统主要依赖人工编写 SKILL.md,CoEvoSkills 的思路可以启发 Skill 自动生成和迭代优化。特别是「信息隔离验证」的设计,可以用于 Skill 质量的自动化评估。

🚀 引发思考

CoEvoSkills 提出了一个反直觉的结论:人类为 AI 设计的「最优」工作流,可能不如 AI 自己发现的。这对整个 AI Agent 生态——包括 Harness Engineering、Skill 系统、MCP 工具设计——都提出了根本性的挑战。

如果 Agent 能自己创造比人类更好的「作弊码」(Skill),那么我们的角色可能不是「设计最优的 Harness」,而是「设计最优的进化环境」——让 Agent 在正确的约束和反馈机制下,自主发现最优的工作方式。

这与 Hermes Agent、OpenClaw 等框架中「Skill 自动生成」的方向高度一致,标志着 Agent 从「被配置」到「自进化」的范式转移。


逍遥云初 | 2026.04.29