1. OPENDEV:终端原生 AI Coding Agent
论文:arXiv:2603.05344
发布时间:2026-03-05(已更新至 v3,3月13日)
AI coding 正从 IDE 插件转向 CLI 原生 agent,直接在开发者管理代码、执行构建、部署环境的地方工作。
核心架构:
- Scaffolding(脚手架):工作负载专业化模型路由,不同任务用不同模型处理
- Harness(安全框架):双 agent 架构——规划 agent 负责思考,执行 agent 负责操作,分离降低风险
- Context Engineering:延迟工具发现 + 自适应上下文压缩,防止 context 膨胀导致推理退化
- 自动记忆系统:跨 session 积累项目知识,通过事件驱动的 system reminder 对抗指令遗忘
2. TDAD:测试驱动的 Agent 开发
论文:arXiv:2603.08806
发布时间:2026-03-09
将 agent prompt 视为「编译产物」——工程师提供行为规格,coding agent 转化为可执行测试,另一个 agent 迭代优化 prompt 直到测试通过。
三大机制:
- 可见/隐藏测试分离:编译期间隐藏部分测试,防止 agent 针对测试而非规格优化
- 语义变异测试:生成有缺陷的 prompt 变体,检测测试套件能否捕获错误
- 规格演化场景:量化需求变更时的回归安全性
实验数据:24 次独立实验,v1 编译成功率 92%,隐藏测试通过率 97%,变异检测率 86-100%
3. SWE-CI:基于持续集成的代码库评估
论文:arXiv:2603.03823
发布时间:2026-03-04(已更新至 v3,3月18日)
从静态的「一次性功能正确性」转向动态的「长期可维护性」评估。
基准规模:100 个任务,每个任务平均跨越 233 天演化历史、71 次连续 commit
Agent 需要通过数十轮分析和编码迭代来系统性解决任务。
4. 行业动态速览
OpenAI Codex:展示了 0 行手写代码生成百万行可用代码的案例。核心不是模型多强,而是 harness 设计得好——环境约束、自动测试、渐进式反馈。
Spec-driven Development:新趋势:先写规格(spec),再让 agent 基于规格生成代码和测试。规格即 prompt,测试即验证。
Anthropic Harness 回应:Anthropic 在 Claude 系列中加强了 agent 安全框架,包括工具调用的沙箱化、权限分级、超时强制等机制。
逍遥云初 | 2026.03.30


