Claw-SWE-Bench: 同一个模型, 换套 Harness 成绩差 27%

核心问题: SWE-bench 分数到底在测什么? SWE-bench 已成 Coding Agent 评测的事实标准, 但厂商报成绩时模型/Harness/题库绑在一起发布, 你根本分不清成绩好到底是模型强还是 Harness 设计得好。Agent 的能力由模型和 harness 共同决定, 同一模型换一套 harness, 得分可相差二十多个百分点, 差距堪比模型换代。

基元律动联合无问芯穹/清华/北大/SEE 基金等机构发布 Claw-SWE-Bench 基准, 试图把这笔糊涂账理清楚。这是一个 350 题的多语言基准, 把 5 套 Harness/9 个大模型拉到同一条起跑线上公平较量。

实验设计: 拆开模型/Harness/题库

核心思路: 固定题库/固定提示词/固定运行预算/固定评分流程, 只让 Harness 和模型各自变。

题库: 350 道 GitHub 真实 issue 修复题, 横跨 8 种语言 (Java/Go/Rust/JS/TS/C/C++/Ruby/PHP/Python), 覆盖 43 个仓库
5 套 Harness: OpenClaw/Hermes-agent/ZeroClaw/NanoBot/Generic Agent
9 个模型: GPT 5.5/Claude Opus 4.7/DeepSeek-V4 Flash/Seed 2.0-mini 等

两组实验: (1) 固定 OpenClaw Harness, 换 9 个模型 -> 模型轴差距; (2) 固定 GLM 5.1 和 Qwen 3.6-flash, 换 5 套 Harness -> 框架轴差距

关键数据

模型轴: 9 个模型拉开 29.4pp

GPT 5.5: 78.0% Pass@1
Claude Opus 4.7: 77.1%
DeepSeek-V4 Flash: 70.3%
Seed 2.0-mini: 48.6%

Harness 轴: 同一个模型, 换套框架差 27.4pp

GLM 5.1: 5 套 Harness 的 Pass@1 从 60.9% 到 73.4%, 差了 12.5pp
Qwen 3.6-flash: 从 38.6% 到 66.0%, 足足 27.4pp

27.4pp 的差距, 在 SWE-bench 排行榜上足以把一个系统从第一名踢到中游。

成本维度: 贵的不一定好

GPT 5.5: 78.0% / $1,399.1
Claude Opus 4.7: 77.1% / $1,082.0
DeepSeek-V4 Flash: 70.3% / $8.2 (成本差 170 倍, 通过率差不到 8pp)
OpenClaw x Qwen 3.6-flash: 66.0% / $71.5 (性价比代表)
NanoBot x GLM 5.1: 60.9% / $768.8 (花更多钱拿更差成绩)

缓存命中率也值得关注: DeepSeek-V4 Flash 98.5%, OpenClaw 96.5%, Generic Agent 只有 66.8%。不同 Harness 的缓存策略直接导致实际 API 账单差异。

关键洞察

Harness 和模型一样重要, 它本身就是决定代码 Agent 能力的第一等变量。同一个模型换套框架, 成绩能差出一个身位; 同样的成绩, 成本能差两个数量级。Harness 设计 (Agent 循环逻辑/工具接口/工作区管理/停止策略) 对最终成绩的影响, 和换一个更高档的模型差不多。

SWE-bench 排行榜需要新的阅读方式。以后看排行榜不能只看分数, 还要问一句: 这成绩用的是哪套 Harness? Claw-SWE-Bench 提供了一个公平对比的框架。

适配器是通用 Agent 参评的关键。裸适配器只有 19.1% 通过率, 完整适配器拉到 73.4%。这让 OpenClaw 这类通用 Agent 框架首次能参加 SWE-bench 评测。

引发思考

1. Harness Engineering 被量化验证: OpenAI 提出的 Harness Engineering 概念不再是理论, Claw-SWE-Bench 用数据证明了 harness 设计的重要性

2. 评测标准化迫在眉睫: 没有统一 harness 的分数对比毫无意义, 行业需要更多类似的公平评测基准

3. 性价比才是王道: 不是越贵的模型越好, 合理的 harness + 经济型模型可能比旗舰模型 + 粗糙 harness 效果更好

Claw-SWE-Bench: 同一个模型, 换套 Harness 成绩差 27%

实验设计: 拆开模型/Harness/题库

关键数据

模型轴: 9 个模型拉开 29.4pp

Harness 轴: 同一个模型, 换套框架差 27.4pp

成本维度: 贵的不一定好

关键洞察

引发思考

相关阅读

推荐好物

相关文章

Claw-SWE-Bench: 同一个模型, 换套 Harness 成绩差 27%

实验设计: 拆开模型/Harness/题库

关键数据

模型轴: 9 个模型拉开 29.4pp

Harness 轴: 同一个模型, 换套框架差 27.4pp

成本维度: 贵的不一定好

关键洞察

引发思考

相关阅读

推荐好物

家居日用

女装

音视频低代码

相关文章

AI科技前沿快讯｜2026年8月1日

AI科技前沿快讯｜2026年7月29日

AI科技前沿快讯 | 2026年7月28日