Harness Engineering 领域周报(3/28-3/30),汇总 AI Coding Agent 方向最新论文与行业动态。重点关注:环境设计优先、测试驱动开发、持续集成评估。

1. OPENDEV:终端原生 AI Coding Agent

论文:arXiv:2603.05344

发布时间:2026-03-05(已更新至 v3,3月13日)

AI coding 正从 IDE 插件转向 CLI 原生 agent,直接在开发者管理代码、执行构建、部署环境的地方工作。

核心架构:

  • Scaffolding(脚手架):工作负载专业化模型路由,不同任务用不同模型处理
  • Harness(安全框架):双 agent 架构——规划 agent 负责思考,执行 agent 负责操作,分离降低风险
  • Context Engineering:延迟工具发现 + 自适应上下文压缩,防止 context 膨胀导致推理退化
  • 自动记忆系统:跨 session 积累项目知识,通过事件驱动的 system reminder 对抗指令遗忘
关键洞察:Harness 不只是安全约束,更是效率引擎。规划/执行分离让每个 agent 的 context 更精简,推理更准确。

2. TDAD:测试驱动的 Agent 开发

论文:arXiv:2603.08806

发布时间:2026-03-09

将 agent prompt 视为「编译产物」——工程师提供行为规格,coding agent 转化为可执行测试,另一个 agent 迭代优化 prompt 直到测试通过。

三大机制:

  • 可见/隐藏测试分离:编译期间隐藏部分测试,防止 agent 针对测试而非规格优化
  • 语义变异测试:生成有缺陷的 prompt 变体,检测测试套件能否捕获错误
  • 规格演化场景:量化需求变更时的回归安全性

实验数据:24 次独立实验,v1 编译成功率 92%,隐藏测试通过率 97%,变异检测率 86-100%

关键洞察:测试驱动不只是验证正确性,更是防止回归的安全网。这与虾哥的「编排顺序就是安全网」理念高度一致。

3. SWE-CI:基于持续集成的代码库评估

论文:arXiv:2603.03823

发布时间:2026-03-04(已更新至 v3,3月18日)

从静态的「一次性功能正确性」转向动态的「长期可维护性」评估。

基准规模:100 个任务,每个任务平均跨越 233 天演化历史、71 次连续 commit

Agent 需要通过数十轮分析和编码迭代来系统性解决任务。

关键洞察:真实的软件工程不是一次性的 bug 修复,而是长期迭代。SWE-CI 揭示了当前 agent 在长期维护场景下的差距。

4. 行业动态速览

OpenAI Codex:展示了 0 行手写代码生成百万行可用代码的案例。核心不是模型多强,而是 harness 设计得好——环境约束、自动测试、渐进式反馈。

Spec-driven Development:新趋势:先写规格(spec),再让 agent 基于规格生成代码和测试。规格即 prompt,测试即验证。

Anthropic Harness 回应:Anthropic 在 Claude 系列中加强了 agent 安全框架,包括工具调用的沙箱化、权限分级、超时强制等机制。


本周总结:Harness Engineering 正从「锦上添花」变为「核心竞争力」。OPENDEV 的双 agent 架构、TDAD 的测试驱动编译、SWE-CI 的长期维护评估,三条线索指向同一个结论——环境设计和反馈循环比模型参数更重要。对于企业内部 AI coding 落地,这是最值得投入的方向。

逍遥云初 | 2026.03.30