Harness 设计 vs 模型能力：同一个模型换套框架，SWE-bench 成绩差 27%

📌 论文信息

论文：Claw-SWE-Bench: A Benchmark for Evaluating OpenClaw-style Agent Harnesses on Coding Tasks 作者：Mengyu Zheng, Kai Han, Boxun Li, Haiyang Xu et al. 提交日期：2026-06-10 链接：arXiv:2606.12344 | 项目主页

📌 核心问题：Harness 设计到底有多重要？

SWE-bench 是代码 Agent 的标准评测基准，但它有一个根本性问题：不同的 Agent harness（框架/脚手架）使用不同的工作区管理、工具接口、Agent 循环逻辑和停止策略，导致不同框架之间的成绩根本无法直接比较。Claw-SWE-Bench 首次把 harness 设计作为第一等评测轴，和模型能力并列。

论文设计了一个公平对比实验：9 个模型 × 5 套 Harness，350 题多语言基准（8 种语言、43 个 GitHub 仓库），候选补丁统一从 git diff 读取而非从 Agent 回复中解析，确保异构框架可比。

关键发现：Harness 设计对最终成绩的影响，和换一个更高档的模型差不多。同一个模型换套框架，Pass@1 差 27 个百分点。

🔥 关键数据

模型轴：29.4pp 差距

GPT 5.5：78.0% Pass@1
Claude Opus 4.7：77.1% Pass@1
Seed 2.0-mini：48.6% Pass@1 — 模型轴最大差距 29.4pp

Harness 轴：27.4pp 差距

Qwen 3.6-flash × 5 套 Harness：Pass@1 从 38.6%（NanoBot）到 66.0%（OpenClaw），差了 27.4pp
GLM 5.1 × 5 套 Harness：60.9%（NanoBot）到 73.4%（OpenClaw），差 12.5pp
OpenClaw 最小适配器 vs 完整适配器：同一 GLM 5.1，19.1% → 73.4%。适配器设计不是锦上添花，而是能力的前提条件

成本维度：170 倍成本差只换来 8pp

GPT 5.5：跑 350 题花 $1399
DeepSeek-V4 Flash：只要 $8.2，通过率只差 8pp — 170 倍成本差
OpenClaw × Qwen 3.6-flash：$71.5 拿到 66.0%
NanoBot × GLM 5.1：$768.8 才 60.9% — 花 10 倍多的钱拿更差的成绩

关键洞察：Harness 设计不仅影响准确率，更直接影响成本效率。选对框架比选对模型更能省钱。Pareto 前沿上的最优解，往往是「中等模型 + 优秀 Harness」而非「最强模型 + 普通框架」。

🏗️ 实验设计

规模：350 个 GitHub issue-resolution 实例，8 种编程语言，43 个仓库，来自 SWE-bench-Multilingual 和 SWE-bench-Verified-Mini
模型：9 个模型（GPT 5.5、Claude Opus 4.7、GLM 5.1、Qwen 3.6-flash、Seed 2.0-mini 等）
Harness：5 套框架（OpenClaw、Hermes、ZeroClaw、Generic、NanoBot）
公平性保障：固定 prompt、固定运行时预算、统一工作区契约、统一补丁提取流程（从 git diff 读取，非 Agent 回复解析）、统一 evaluator
Lite 版本：80 个实例子集，通过 cost-aware、rank-aware 程序从 17 列校准数据中选出，用于快速验证

🧠 三个核心洞察

Harness 和模型是同等重要的第一等变量：模型轴 29.4pp vs Harness 轴 27.4pp，差距几乎一样大。过去只看模型不看框架的评测方式是不完整的
适配器设计是能力的前提条件：OpenClaw 最小适配器 19.1% → 完整适配器 73.4%（同一 GLM 5.1），差了 54pp。Agent 循环逻辑、工具接口、工作区管理、停止策略这些「脚手架」设计，直接决定了模型能力能不能发挥出来
成本效率由框架决定而非模型决定：170 倍成本差只换来 8pp 准确率提升。「中等模型 + 优秀框架」的 Pareto 效率远超「最强模型 + 普通框架」

💡 引发思考

这篇论文直接验证了 Harness Engineering 的核心论点。OpenAI 在 2026 年初提出的 Harness Engineering 概念——环境设计、渐进式披露、反馈循环、黄金原则编码——不是理论空谈，而是有实打实的数据支撑。同一个 Qwen 3.6-flash 模型，换一套框架成绩差 27pp，这个数字比任何理论论证都有说服力。

这意味着在 AI Coding Agent 的竞争中，真正的护城河不在模型层面（模型会被商品化），而在工程层面：Agent 循环怎么设计、工具接口怎么定义、上下文怎么管理、错误怎么恢复、停止策略怎么制定。这些「脚手架」细节的累积效应，远超模型本身的代际差距。

对实际工程的启示：与其追求最强模型，不如把精力花在优化框架设计上。$71.5 的 OpenClaw × Qwen 3.6-flash 打出 66.0%，而 $768.8 的 NanoBot × GLM 5.1 只有 60.9%——选对框架，省钱又提质。

📌 相关阅读

逍遥云初 | 2026.06.23

Harness 设计 vs 模型能力：同一个模型换套框架，SWE-bench 成绩差 27%

📌 论文信息

📌 核心问题：Harness 设计到底有多重要？

🔥 关键数据

模型轴：29.4pp 差距

Harness 轴：27.4pp 差距

成本维度：170 倍成本差只换来 8pp

🏗️ 实验设计

🧠 三个核心洞察

💡 引发思考

📌 相关阅读

推荐好物

相关文章

Harness 设计 vs 模型能力：同一个模型换套框架，SWE-bench 成绩差 27%

📌 论文信息

📌 核心问题：Harness 设计到底有多重要？

🔥 关键数据

模型轴：29.4pp 差距

Harness 轴：27.4pp 差距

成本维度：170 倍成本差只换来 8pp

🏗️ 实验设计

🧠 三个核心洞察

💡 引发思考

📌 相关阅读

推荐好物

音视频通讯

音视频低代码

云产品精品福利

相关文章

AI 回归物理系统：WEF《2026十大新兴技术》+ 科技部 AI 专项同日落地

小米 YU7 GT 拿下全球首个纽北自动驾驶圈速纪录：纽北官方开设「自动驾驶」分类

具身智能的「视角缺失」：arXiv 论文 Body-Grounded Perspective 解读——AI 永远缺一个身体