Agentic Harness for Real-World Compilers（llvm-autofix 深度解读）

论文链接：https://arxiv.org/abs/2603.20075 | GitHub：https://github.com/dtcxzyw/llvm-autofix

团队：Yingwei Zheng, Cong Li, Shaohua Li, Yuqun Zhang, Zhendong Su（浙大 + Zhendong Su 团队）

提交日期：2026年3月20日

编译器是现代计算的基础设施，但修复编译器 bug 极其困难。与普通软件 bug 不同，编译器 bug 有几个独特挑战：

缺乏自然语言描述：普通软件 bug 通常有详细的 issue 描述；编译器 bug 只有一个 reproducer（测试用例）+ stack trace 或 counterexample
跨领域专业门槛高：需要理解词法/语法分析、类型系统、IR 设计/优化、代码生成，通常需要人类工程师数年才能掌握
现有通用工具不适配：SWE-bench / SWE-agent 用 bash 工具处理通用软件工程，在编译器领域效果有限

这是 Harness Engineering 的经典案例。llvm-autofix 的三层设计：

把编译器任务封装成 Agent 可用的接口：

关键设计：消除不必要的技术细节，让 Agent 专注于 bug 定位和修复核心环节。

334 个可复现的 LLVM 中间层 bug，每个约 1.4 个 reproducer + 722 个回归测试。按难度分三档，持续更新 live 版本（仅过去一年的 issue）。

针对 LLVM 中间层 bug 定制的最小化 Agent，基于团队在修复 LLVM issue 的真实经验设计。比通用 mini-SWE-agent 高 22%。

Frontier 模型在编译器 bug 修复上比普通软件 bug 性能下降 60%。这再次证明 Harness Engineering 的核心论点：不是模型不够聪明，是环境没铺好。

llvm-autofix-mini（专门设计的 harness + 最小 agent）就能把 GPT 5 从"裸跑"提升 22 个百分点。

通过 LLVM 专家人工审核 agent 的 patch，发现 Frontier 模型的真实能力始终低于 22%。很多通过 benchmark 测试的 patch 实际上是"碰巧过测试"，不是真正修复了 bug。

仅仅测试通过 ≠ 正确修复，验证环节的设计至关重要。

Harness 的职责是给 Agent 铺好路，让它专注于核心推理。

这篇论文完美诠释了 Harness Engineering 的几个核心原则：

逍遥云初 | 2026.03.31