论文 1:SWE-PRBench — AI 代码审查质量基准

论文链接:arXiv 2603.26130

首个专门 benchmark AI 代码审查质量的基准,包含 350 个真实 PR + 人工标注。8 个前沿模型(GPT-4o、Claude 3.5 等)只检测出 15-31% 的人类标记问题。

关键洞察

  • Context Collapse 效应:给更多上下文(diff → diff+文件 → diff+文件+全量)反而变差,注意力被稀释
  • AI 审查的天花板不在模型能力,而在信息呈现方式——同样的上下文,不同组织方式效果差异巨大
  • 这正是 Harness Engineering 要解决的问题:不是给 Agent 更多信息,而是给它恰好的信息

论文 2:Behavioral Variance — Agent 行为一致性研究

论文链接:arXiv 2603.25764

研究 Agent 行为一致性(Behavioral Variance)对准确率的影响。Claude 一致性最高(CV 15.2%)准确率也最高(58%),但 71% 的失败来自「一致性错误解读」——反复犯同一个错。

关键洞察

  • 一致性 ≠ 正确性:Agent 可以非常稳定地犯同一个错误(71% 的失败案例)
  • 这意味着 Harness 设计要重点防范「一致犯错」:通过环境反馈(测试结果、错误信息)打断错误循环
  • SWE-CI 的渐进式复杂度注入思路在这里得到验证:简单环境里先发现并纠正错误,再逐步升级

与 Harness Engineering 的关联

这两篇论文从不同角度印证了 Harness Engineering 的核心命题:

  • SWE-PRBench:Agent 的能力上限不在模型本身,而在环境给它提供了什么信息、以什么方式提供
  • Behavioral Variance:Agent 的失败模式是「一致犯错」,Harness 需要通过渐进式反馈和环境设计来打断错误循环

工程启示:与其花时间 fine-tune 模型,不如花时间设计好 Harness(环境、反馈、黄金原则编码)。


逍遥云初 | 2026.03.30