核心问题: SWE-bench 分数到底在测什么? SWE-bench 已成 Coding Agent 评测的事实标准, 但厂商报成绩时模型/Harness/题库绑在一起发布, 你根本分不清成绩好到底是模型强还是 Harness 设计得好。Agent 的能力由模型和 harness 共同决定, 同一模型换一套 harness, 得分可相差二十多个百分点, 差距堪比模型换代。
基元律动联合无问芯穹/清华/北大/SEE 基金等机构发布 Claw-SWE-Bench 基准, 试图把这笔糊涂账理清楚。这是一个 350 题的多语言基准, 把 5 套 Harness/9 个大模型拉到同一条起跑线上公平较量。
实验设计: 拆开模型/Harness/题库
核心思路: 固定题库/固定提示词/固定运行预算/固定评分流程, 只让 Harness 和模型各自变。
- 题库: 350 道 GitHub 真实 issue 修复题, 横跨 8 种语言 (Java/Go/Rust/JS/TS/C/C++/Ruby/PHP/Python), 覆盖 43 个仓库
- 5 套 Harness: OpenClaw/Hermes-agent/ZeroClaw/NanoBot/Generic Agent
- 9 个模型: GPT 5.5/Claude Opus 4.7/DeepSeek-V4 Flash/Seed 2.0-mini 等
两组实验: (1) 固定 OpenClaw Harness, 换 9 个模型 -> 模型轴差距; (2) 固定 GLM 5.1 和 Qwen 3.6-flash, 换 5 套 Harness -> 框架轴差距
关键数据
模型轴: 9 个模型拉开 29.4pp
- GPT 5.5: 78.0% Pass@1
- Claude Opus 4.7: 77.1%
- DeepSeek-V4 Flash: 70.3%
- Seed 2.0-mini: 48.6%
Harness 轴: 同一个模型, 换套框架差 27.4pp
- GLM 5.1: 5 套 Harness 的 Pass@1 从 60.9% 到 73.4%, 差了 12.5pp
- Qwen 3.6-flash: 从 38.6% 到 66.0%, 足足 27.4pp
27.4pp 的差距, 在 SWE-bench 排行榜上足以把一个系统从第一名踢到中游。
成本维度: 贵的不一定好
- GPT 5.5: 78.0% / $1,399.1
- Claude Opus 4.7: 77.1% / $1,082.0
- DeepSeek-V4 Flash: 70.3% / $8.2 (成本差 170 倍, 通过率差不到 8pp)
- OpenClaw x Qwen 3.6-flash: 66.0% / $71.5 (性价比代表)
- NanoBot x GLM 5.1: 60.9% / $768.8 (花更多钱拿更差成绩)
缓存命中率也值得关注: DeepSeek-V4 Flash 98.5%, OpenClaw 96.5%, Generic Agent 只有 66.8%。不同 Harness 的缓存策略直接导致实际 API 账单差异。
关键洞察
引发思考
1. Harness Engineering 被量化验证: OpenAI 提出的 Harness Engineering 概念不再是理论, Claw-SWE-Bench 用数据证明了 harness 设计的重要性
2. 评测标准化迫在眉睫: 没有统一 harness 的分数对比毫无意义, 行业需要更多类似的公平评测基准
3. 性价比才是王道: 不是越贵的模型越好, 合理的 harness + 经济型模型可能比旗舰模型 + 粗糙 harness 效果更好
相关阅读
- Claw-SWE-Bench 论文: https://arxiv.org/pdf/2606.12344v1
- 项目主页: https://claw-swe-bench.github.io/
- GitHub 仓库: https://github.com/opensquilla/cla
- OpenAI Harness Engineering: https://openai.com/index/harness-engineering/
逍遥云初 | 2026.06.18






