CoEvoSkills：Agent Skill 自进化框架，让 AI 自己创造「作弊码」

📌 核心问题

Anthropic 提出了 Agent Skills 的概念——不同于简单的 Tool（单个函数），Skill 是一个结构化的多文件包，包含工作流指令、可执行脚本和领域参考材料。SkillsBench 的评估表明，配备精心设计的 Skill 能显著提升 Agent 在软件工程、科学分析等专业领域的表现。

但当前的 Skill 生成几乎完全依赖人工编写，不仅劳动密集、难以规模化，还存在一个深层问题：人类专家设计的工作流和抽象，并不天然匹配 LLM Agent 处理上下文、推理和执行的方式。SkillsBench 的评估显示，人工编写的 Skill 在某些领域（如自然科学）甚至导致性能下降——这就是「人机认知错位」问题。

🔬 技术架构

双组件共进化设计

CoEvoSkills 的核心是两个组件的共进化循环：

Skill Generator（技能生成器）：迭代式生成和精炼多文件 Skill 包。维护一个持久化的对话上下文，跨迭代累积来自 Surrogate Verifier 的高保真反馈。

Surrogate Verifier（代理验证器）：独立于生成器的另一个 LLM 会话，不继承生成器的偏差。根据任务指令和环境自主合成测试用例和脚本，提供结构化的失败诊断反馈。

信息隔离的关键设计

整个框架运行在 POMDP（部分可观测马尔可夫决策过程）环境中：

Ground-Truth Oracle Test 在全新环境中独立重新执行 Skill，只返回二元 pass/fail 信号
Surrogate Verifier 无法访问 ground-truth 测试内容，只能通过自主合成的测试提供反馈
当 surrogate 测试全部通过但 oracle 失败时，触发 test escalation——验证器升级测试难度

这种信息隔离设计模拟了真实世界中缺乏 ground-truth 反馈的场景，使框架具有实际可用性。

📊 关键数据

在 SkillsBench 上，CoEvoSkills 在 Claude Code 和 Codex 上都达到了最高的通过率
5 轮进化后超越人工编写的 Skill 质量
仅需 5 轮进化迭代，Skill 质量从基线提升到超越人类专家水平

🔑 关键洞察

核心发现 1：Agent 生成的 Skill 比人工编写的更好。原因在于 Agent 能捕获自己实际需要的推理模式和工具使用策略，而非人类认为 Agent 应该怎么做。这揭示了 Harness Engineering 中的一个深层矛盾——人类设计的约束可能与 Agent 的实际需求不匹配。

核心发现 2：自进化的 Skill 具有跨模型迁移能力。一个前沿 LLM 进化出的 Skill 包，可以有效迁移到来自 5 家公司的 6 个不同 LLM 上，带来 35-45pp 的性能提升。这意味着 Skill 编码的是可复用的任务结构，而非模型特定的伪影。

对 OpenClaw 的启示：当前 Skill 系统主要依赖人工编写 SKILL.md，CoEvoSkills 的思路可以启发 Skill 自动生成和迭代优化。特别是「信息隔离验证」的设计，可以用于 Skill 质量的自动化评估。

🚀 引发思考

CoEvoSkills 提出了一个反直觉的结论：人类为 AI 设计的「最优」工作流，可能不如 AI 自己发现的。这对整个 AI Agent 生态——包括 Harness Engineering、Skill 系统、MCP 工具设计——都提出了根本性的挑战。

如果 Agent 能自己创造比人类更好的「作弊码」（Skill），那么我们的角色可能不是「设计最优的 Harness」，而是「设计最优的进化环境」——让 Agent 在正确的约束和反馈机制下，自主发现最优的工作方式。

这与 Hermes Agent、OpenClaw 等框架中「Skill 自动生成」的方向高度一致，标志着 Agent 从「被配置」到「自进化」的范式转移。

逍遥云初 | 2026.04.29

CoEvoSkills：Agent Skill 自进化框架，让 AI 自己创造「作弊码」

📌 核心问题

🔬 技术架构

双组件共进化设计

信息隔离的关键设计

📊 关键数据

🔑 关键洞察

🚀 引发思考

推荐好物

相关文章

CoEvoSkills：Agent Skill 自进化框架，让 AI 自己创造「作弊码」

📌 核心问题

🔬 技术架构

双组件共进化设计

信息隔离的关键设计

📊 关键数据

🔑 关键洞察

🚀 引发思考

推荐好物

音视频通讯

家用电器

音视频低代码

相关文章

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四

2026 年国内 AI 剧漫剧市场规模将达 400 亿元，同比增长 138%