📌 论文信息

论文:Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks 作者:Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu et al. 提交日期:2026-06-10 链接:arXiv:2606.12344 | 项目主页


📌 核心问题:Harness 设计到底有多重要?

SWE-bench 是代码 Agent 的标准评测基准,但它有一个根本性问题:不同的 Agent harness(框架/脚手架)使用不同的工作区管理、工具接口、Agent 循环逻辑和停止策略,导致不同框架之间的成绩根本无法直接比较。Claw-SWE-Bench 首次把 harness 设计作为第一等评测轴,和模型能力并列。

论文设计了一个公平对比实验:9 个模型 × 5 套 Harness,350 题多语言基准(8 种语言、43 个 GitHub 仓库),候选补丁统一从 git diff 读取而非从 Agent 回复中解析,确保异构框架可比。

关键发现:Harness 设计对最终成绩的影响,和换一个更高档的模型差不多。同一个模型换套框架,Pass@1 差 27 个百分点。

🔥 关键数据

模型轴:29.4pp 差距

  • GPT 5.5:78.0% Pass@1
  • Claude Opus 4.7:77.1% Pass@1
  • Seed 2.0-mini:48.6% Pass@1 — 模型轴最大差距 29.4pp

Harness 轴:27.4pp 差距

  • Qwen 3.6-flash × 5 套 Harness:Pass@1 从 38.6%(NanoBot)到 66.0%(OpenClaw),差了 27.4pp
  • GLM 5.1 × 5 套 Harness:60.9%(NanoBot)到 73.4%(OpenClaw),差 12.5pp
  • OpenClaw 最小适配器 vs 完整适配器:同一 GLM 5.1,19.1% → 73.4%。适配器设计不是锦上添花,而是能力的前提条件

成本维度:170 倍成本差只换来 8pp

  • GPT 5.5:跑 350 题花 $1399
  • DeepSeek-V4 Flash:只要 $8.2,通过率只差 8pp — 170 倍成本差
  • OpenClaw × Qwen 3.6-flash:$71.5 拿到 66.0%
  • NanoBot × GLM 5.1:$768.8 才 60.9% — 花 10 倍多的钱拿更差的成绩
关键洞察:Harness 设计不仅影响准确率,更直接影响成本效率。选对框架比选对模型更能省钱。Pareto 前沿上的最优解,往往是「中等模型 + 优秀 Harness」而非「最强模型 + 普通框架」。

🏗️ 实验设计

  • 规模:350 个 GitHub issue-resolution 实例,8 种编程语言,43 个仓库,来自 SWE-bench-Multilingual 和 SWE-bench-Verified-Mini
  • 模型:9 个模型(GPT 5.5、Claude Opus 4.7、GLM 5.1、Qwen 3.6-flash、Seed 2.0-mini 等)
  • Harness:5 套框架(OpenClaw、Hermes、ZeroClaw、Generic、NanoBot)
  • 公平性保障:固定 prompt、固定运行时预算、统一工作区契约、统一补丁提取流程(从 git diff 读取,非 Agent 回复解析)、统一 evaluator
  • Lite 版本:80 个实例子集,通过 cost-aware、rank-aware 程序从 17 列校准数据中选出,用于快速验证

🧠 三个核心洞察

  1. Harness 和模型是同等重要的第一等变量:模型轴 29.4pp vs Harness 轴 27.4pp,差距几乎一样大。过去只看模型不看框架的评测方式是不完整的
  2. 适配器设计是能力的前提条件:OpenClaw 最小适配器 19.1% → 完整适配器 73.4%(同一 GLM 5.1),差了 54pp。Agent 循环逻辑、工具接口、工作区管理、停止策略这些「脚手架」设计,直接决定了模型能力能不能发挥出来
  3. 成本效率由框架决定而非模型决定:170 倍成本差只换来 8pp 准确率提升。「中等模型 + 优秀框架」的 Pareto 效率远超「最强模型 + 普通框架」

💡 引发思考

这篇论文直接验证了 Harness Engineering 的核心论点。OpenAI 在 2026 年初提出的 Harness Engineering 概念——环境设计、渐进式披露、反馈循环、黄金原则编码——不是理论空谈,而是有实打实的数据支撑。同一个 Qwen 3.6-flash 模型,换一套框架成绩差 27pp,这个数字比任何理论论证都有说服力。

这意味着在 AI Coding Agent 的竞争中,真正的护城河不在模型层面(模型会被商品化),而在工程层面:Agent 循环怎么设计、工具接口怎么定义、上下文怎么管理、错误怎么恢复、停止策略怎么制定。这些「脚手架」细节的累积效应,远超模型本身的代际差距。

对实际工程的启示:与其追求最强模型,不如把精力花在优化框架设计上。$71.5 的 OpenClaw × Qwen 3.6-flash 打出 66.0%,而 $768.8 的 NanoBot × GLM 5.1 只有 60.9%——选对框架,省钱又提质。


📌 相关阅读


逍遥云初 | 2026.06.23