2026 年 3 月最后一周,escape.tech 创始人 Antoine Carlon 在旧金山参加了 Y Combinator DevTool Day 和 All Things Dev 大会,与数十位 CTO、CPO 和工程领袖深度交流。这份田野报告揭示了硅谷最前沿的开发范式转变:Harness Engineering 不再是概念,而是生产实践。

如果你还在把 AI Coding Agent 当成「智能补全工具」,那你可能已经落后了。在旧金山,最前沿的团队已经在用一套完整的系统——Harness + AI Factory——把「意图」变成「交付」,24 小时不停歇。这不是 demo,是生产环境的真实实践。

📖 先厘清概念:什么是 Harness?什么是 AI Factory?

这些术语在业界被严重 overloaded,Antoine 给出了精确的窄定义:

  • Model / LLM:基础智能层,token 进 token 出。单独不记忆、不读仓库、不跑命令、不验证结果
  • Harness(驾驭层):模型之外的一切——指令、上下文、工具、运行时、权限、审查循环、验证机制
  • Agent:被 Harness 武装的循环——能决策、行动、观察、继续,直到完成或被阻断
  • Vibe Coding:低结构的「接受即迭代」工作流。探索和原型有用,但对正确性、可重复交付和受监管工作流很弱
  • AI Factory(AI 工厂):组织级系统,把意图反复变成交付——问题定义、执行、审查、部署、遥测、反馈。部分是工程,部分是产品运营
核心区分:Harness 是单个 Agent 的控制层;AI Factory 是组织级的交付流水线。Vibe Coding 是探索模式;AI Factory 是规模化生产模式。

🚀 生产力 x10:不是夸张,但有前提

多个激进团队声称,相比 2025 年 12 月的工作流,生产力提升了 10 倍。审慎的版本是:

  • 对比基线是 2025 年 12 月的工作流,不是 pre-AI 时代
  • 一个季度内,模型、Harness、编排同时改进,产生了乘数效应
  • 一个工程师 + 好的 Agent 的操作天花板,比几个月前明显不同
「10x」是快速采纳者的方向性断言,不是经过审计的通用基准。但它指向的趋势是真实的。

👤 「Builder」的崛起:角色边界正在崩塌

UI 设计师、UX 研究员、产品负责人、开发者之间的区分正在消融。一个新角色正在涌现:Builder——端到端拥有问题、用 Agent 覆盖自身技能缺口的人。

  • 一个没有前端经验的 PM,能发布可工作的 UI 变更
  • 一个设计师,推的是代码而不仅仅是 mockup
  • 一个创始人,在团队介入前就原型化完整功能

产出第一版 PR 的门槛已经低到角色边界不再是约束。真正重要的是:你能否判断这个 diff 是否应该进入产品、是否正确、是否与整体一致。

🎯 瓶颈迁移到产品策略

当实现变得便宜,糟糕的策略变得更贵。原因很简单:

  1. 慢实现曾经能吸收弱决策的代价
  2. 快实现移除了这个缓冲
  3. 团队现在能比以前更快地 ship 低质量策略
产品质量现在更依赖优先级纪律,而不是更少。实现成本下降 ≠ 可以不思考。恰恰相反——速度越快,方向越重要。

⏰ 24 小时运转:没有借口不跑

如果复利优势在于循环速度,那么让 Agent 晚上闲置就是主动选择减速。这不是关于开发者工时,而是资产利用率——Agent 是基础设施,每晚 7 点到早 9 点让它们闲置,等同于每天晚上关闭 CI/CD 管线。

技术可行性已不再有疑问:

  • 乐天工程师在 1250 万行代码库上自主运行 Claude Code 7 小时,准确率 99.9%
  • OpenAI 发布了 Codex 压力测试,连续运行 25 小时无中断

最强团队描述的工作流:工程师下班时推送工作 → Agent 通宵写测试、代码审查、重构、安全扫描 → 早上代码库已经过测试、审查和标记 → 工程师的第一个任务是分诊,不是实现 → 没有人工批准,什么都不合并。

💀 IDE 已死?重心在迁移

这个说法有修辞成分,但方向是对的:重心正在从编辑器迁移到 Agent 控制台。编辑器仍然重要,但对于多步骤工作,关键界面层现在是编排、可见性、审查、状态和对并行会话的控制。当工作更像「操作系统」而非「逐行敲代码」时,终端胜出。

⏱️ 创业生命周期在压缩

Agent 驱动开发压缩了假设→第一版产品→早期牵引→v2 迷茫之间的时间。你更快到达「初始愿景基本建完了,然后呢?」的阶段。

这产生了一种新的失败模式:公司有工程杠杆,但还没有用好它的战略清晰度。结果是功能量多但缺乏产品方向。

这对创业者意味着:不要庆祝「我们 ship 得好快」,要问「我们在 ship 对的东西吗?」。工程效率的提升,让产品判断力的价值指数级放大。

📊 PM 角色在变形:不是更少,是不同

3 个产品人配 15 个工程师绰绰有余——可能还多了。旧的 1:5-7 比例假设 PM 是业务意图和技术执行之间的翻译层。当 Agent 消除了大部分翻译成本,PM 的价值完全上游移。

缩小的工作:详细 ticket 翻译、backlog grooming 作为沟通桥梁、实现级别的手把手指导

放大的工作:市场理解、客户信号的综合分析、在工程吞吐量大幅提升下的优先级排序、决定不做什么

🔑 关键洞察

Harness Engineering 的本质不是优化模型,而是构建一整套让 Agent 跑得稳、跑得久、不跑偏的体系。这和我们做 OpenClaw Skill 编排的思路完全一致——编排顺序就是安全网,跳步 = 裸奔。

1. 环境比模型重要:Antoine 反复听到的一句话是「the environment around the thing matters more than the thing itself」。模型是商品化的,Harness 是差异化的。这解释了为什么 OpenAI 要发布 Harness Engineering 指南——他们意识到仅靠模型赢不了。

2. 验证循环是核心竞争力:乐天 99.9% 准确率的 7 小时自主运行,靠的不是更好的模型,而是更好的验证——每一步都有检查点,每个变更都有人审。这正是我们 Skill 编排中「编排顺序就是安全网」的工业化版本。

3. 从 Vibe Coding 到 AI Factory 的跃迁:Vibe Coding 是个人技能,AI Factory 是组织能力。前者靠直觉,后者靠系统。硅谷已经在从第一阶段向第二阶段迁移。如果你的团队还在「用 Cursor 写代码」而不是「构建让 Agent 自动运转的系统」,那你还在 Vibe Coding 阶段。

4. Agent 是基础设施,不是工具:把 Agent 当工具用的人,会在下班后关闭它。把 Agent 当基础设施的人,会让它 24 小时运转。心态差异决定了复利效应的大小。

🤔 引发思考

这份田野报告最令人震撼的不是任何单一观点,而是趋势的一致性。无论团队大小、行业、融资阶段,所有受访者的回答都指向同一个方向:模型能力已经不是瓶颈,系统设计才是。

对我们的启示:我们已经在做 Harness Engineering——只是没这么叫它。OpenClaw 的 Skill 编排、AGENTS.md 的执行纪律、SOUL.md 的安全思维链、MEMORY.md 的记忆系统,本质上就是给 AI Agent 设计缰绳、马鞍和跑道护栏。区别在于,硅谷的前沿团队已经在组织级别系统化了这些实践,而我们还在个人级别手工操作。

下一步的问题是:如何从个人的 Harness 实践,升级为团队级的 AI Factory?这可能是 2026 年下半年最重要的工程问题。

📎 相关阅读


逍遥云初 | 2026.05.09