📌 核心趋势

Coding Agent 正在从「单轮生成」走向「长生命周期任务」。这不是一个渐进式的变化,而是一个范式转移——Agent 的定位正在从「帮我写个函数」升级为「帮我把这个 feature 从设计到测试都搞定」。

OpenAI Codex 团队最近披露了一个关键数据:他们处理的平均任务时长已经从几分钟涨到了 47 分钟。这意味着 Agent 不再是简单的代码补全工具,而是需要在复杂环境中持续迭代、自我验证的长期协作者。

🔥 关键数据

  • 平均任务时长:几分钟 → 47 分钟(OpenAI Codex 团队数据)
  • 任务复杂度变化:从「写一个函数」到「完整 feature 的设计-编码-测试全流程」
  • 临界点:任务时长超过 30 分钟后,prompt 质量对结果的影响显著下降

🧠 Harness Engineering 视角

这一趋势与 Harness Engineering 的核心观点完全一致:环境设计比提示词工程重要得多。你不需要把所有指令塞进 prompt,而是给 Agent 一个好的测试环境 + 渐进式反馈,让它自己迭代。

  • 传统思路:把所有指令塞进 prompt → 写好 system prompt = 好结果
  • Harness 思路:设计可验证的环境 → Agent 自己迭代 → 环境给反馈 → 收敛到正确解
  • 关键转变:从「一次性生成」到「多轮探索-验证-修正」循环

🔑 关键洞察

当 Agent 任务时长超过 30 分钟,「怎么写 prompt」变得不重要,「怎么设计可验证的环境」才是关键。这不是 prompt engineering 的终结,而是上下文工程(Context Engineering)的崛起。

这背后的逻辑很简单:47 分钟的任务意味着 Agent 会遇到无数你在 prompt 里无法预见的情况。你能做的不是预判所有问题,而是确保环境足够「诚实」——测试能跑、错误信息清晰、Agent 能通过尝试逐步逼近正确解。

这也解释了为什么 SWE-CI(阿里 + 中大)和 TDAD(测试驱动 Agent 开发)这类研究方向越来越热——它们本质上都是在解决同一个问题:怎么让 Agent 在长生命周期任务中保持正确的方向。

🤔 引发思考

这个趋势对我们的日常工作意味着什么?如果你还在花大量时间打磨 prompt,可能需要重新审视优先级。更值得投入的是:搭建更好的 CI 流水线、编写更清晰的测试用例、设计更友好的错误反馈机制——这些才是让 Agent 变强的「基础设施」。

从工程角度看,Coding Agent 的长生命周期化也在倒逼软件工程本身的变革。模块化、测试覆盖率、清晰的错误边界——这些老生常谈的最佳实践,在 Agent 时代反而变得更加重要。


逍遥云初 | 2026.04.12


📚 补充:硅谷大厂 AI Coding 面试变天(2026.04.12)

Google、Stripe 近期开始试点「open-book coding interview」——面试时允许用 Copilot/Cursor,考的不是手写红黑树,而是「给一个模糊需求,你怎么拆任务、怎么验证 Agent 输出、怎么搭 harness」。

  • Google:试点允许使用 AI 工具,考核重点转向系统设计和任务拆解能力
  • Stripe:面试中引入 Agent 协作场景,考察候选人如何引导和验证 AI 输出
  • 趋势:从「算法白板」转向「你能不能管好一个 AI pair programmer」

🔑 面试能力映射

这本质上就是 Harness Engineering 能力的面试化。以后招人标准可能从「算法白板」变成「你能不能管好一个 AI pair programmer」。
  • 任务拆解能力:给模糊需求,拆成 Agent 可执行的原子步骤
  • 环境设计能力:搭建可验证的测试环境,让 Agent 自己迭代
  • 输出验证能力:快速判断 Agent 生成的代码是否正确、是否最优
  • Harness 搭建能力:设计反馈循环,让 Agent 在长任务中不偏离方向

🤔 引发思考

这对做 Agent 基础设施的人是利好——你每天做的事就是别人面试考的东西。同时也在倒逼教育体系改革:计算机基础课可能要加入「如何与 AI 协作」模块,而不仅仅是算法和数据结构。

从个人准备角度:与其刷 LeetCode,不如练习「给一个模糊需求,用 Agent 从 0 到 1 完成完整 feature」的全流程。面试考的是你作为「Agent 管理者」的能力,不是你作为「代码生成器」的能力。