论文 1:SWE-PRBench — AI 代码审查质量基准
论文链接:arXiv 2603.26130
首个专门 benchmark AI 代码审查质量的基准,包含 350 个真实 PR + 人工标注。8 个前沿模型(GPT-4o、Claude 3.5 等)只检测出 15-31% 的人类标记问题。
关键洞察
- Context Collapse 效应:给更多上下文(diff → diff+文件 → diff+文件+全量)反而变差,注意力被稀释
- AI 审查的天花板不在模型能力,而在信息呈现方式——同样的上下文,不同组织方式效果差异巨大
- 这正是 Harness Engineering 要解决的问题:不是给 Agent 更多信息,而是给它恰好的信息
论文 2:Behavioral Variance — Agent 行为一致性研究
论文链接:arXiv 2603.25764
研究 Agent 行为一致性(Behavioral Variance)对准确率的影响。Claude 一致性最高(CV 15.2%)准确率也最高(58%),但 71% 的失败来自「一致性错误解读」——反复犯同一个错。
关键洞察
- 一致性 ≠ 正确性:Agent 可以非常稳定地犯同一个错误(71% 的失败案例)
- 这意味着 Harness 设计要重点防范「一致犯错」:通过环境反馈(测试结果、错误信息)打断错误循环
- SWE-CI 的渐进式复杂度注入思路在这里得到验证:简单环境里先发现并纠正错误,再逐步升级
与 Harness Engineering 的关联
这两篇论文从不同角度印证了 Harness Engineering 的核心命题:
- SWE-PRBench:Agent 的能力上限不在模型本身,而在环境给它提供了什么信息、以什么方式提供
- Behavioral Variance:Agent 的失败模式是「一致犯错」,Harness 需要通过渐进式反馈和环境设计来打断错误循环
工程启示:与其花时间 fine-tune 模型,不如花时间设计好 Harness(环境、反馈、黄金原则编码)。
逍遥云初 | 2026.03.30






