如果你还在把 AI Coding Agent 当成「智能补全工具」,那你可能已经落后了。在旧金山,最前沿的团队已经在用一套完整的系统——Harness + AI Factory——把「意图」变成「交付」,24 小时不停歇。这不是 demo,是生产环境的真实实践。
📖 先厘清概念:什么是 Harness?什么是 AI Factory?
这些术语在业界被严重 overloaded,Antoine 给出了精确的窄定义:
- Model / LLM:基础智能层,token 进 token 出。单独不记忆、不读仓库、不跑命令、不验证结果
- Harness(驾驭层):模型之外的一切——指令、上下文、工具、运行时、权限、审查循环、验证机制
- Agent:被 Harness 武装的循环——能决策、行动、观察、继续,直到完成或被阻断
- Vibe Coding:低结构的「接受即迭代」工作流。探索和原型有用,但对正确性、可重复交付和受监管工作流很弱
- AI Factory(AI 工厂):组织级系统,把意图反复变成交付——问题定义、执行、审查、部署、遥测、反馈。部分是工程,部分是产品运营
🚀 生产力 x10:不是夸张,但有前提
多个激进团队声称,相比 2025 年 12 月的工作流,生产力提升了 10 倍。审慎的版本是:
- 对比基线是 2025 年 12 月的工作流,不是 pre-AI 时代
- 一个季度内,模型、Harness、编排同时改进,产生了乘数效应
- 一个工程师 + 好的 Agent 的操作天花板,比几个月前明显不同
👤 「Builder」的崛起:角色边界正在崩塌
UI 设计师、UX 研究员、产品负责人、开发者之间的区分正在消融。一个新角色正在涌现:Builder——端到端拥有问题、用 Agent 覆盖自身技能缺口的人。
- 一个没有前端经验的 PM,能发布可工作的 UI 变更
- 一个设计师,推的是代码而不仅仅是 mockup
- 一个创始人,在团队介入前就原型化完整功能
产出第一版 PR 的门槛已经低到角色边界不再是约束。真正重要的是:你能否判断这个 diff 是否应该进入产品、是否正确、是否与整体一致。
🎯 瓶颈迁移到产品策略
当实现变得便宜,糟糕的策略变得更贵。原因很简单:
- 慢实现曾经能吸收弱决策的代价
- 快实现移除了这个缓冲
- 团队现在能比以前更快地 ship 低质量策略
⏰ 24 小时运转:没有借口不跑
如果复利优势在于循环速度,那么让 Agent 晚上闲置就是主动选择减速。这不是关于开发者工时,而是资产利用率——Agent 是基础设施,每晚 7 点到早 9 点让它们闲置,等同于每天晚上关闭 CI/CD 管线。
技术可行性已不再有疑问:
- 乐天工程师在 1250 万行代码库上自主运行 Claude Code 7 小时,准确率 99.9%
- OpenAI 发布了 Codex 压力测试,连续运行 25 小时无中断
最强团队描述的工作流:工程师下班时推送工作 → Agent 通宵写测试、代码审查、重构、安全扫描 → 早上代码库已经过测试、审查和标记 → 工程师的第一个任务是分诊,不是实现 → 没有人工批准,什么都不合并。
💀 IDE 已死?重心在迁移
这个说法有修辞成分,但方向是对的:重心正在从编辑器迁移到 Agent 控制台。编辑器仍然重要,但对于多步骤工作,关键界面层现在是编排、可见性、审查、状态和对并行会话的控制。当工作更像「操作系统」而非「逐行敲代码」时,终端胜出。
⏱️ 创业生命周期在压缩
Agent 驱动开发压缩了假设→第一版产品→早期牵引→v2 迷茫之间的时间。你更快到达「初始愿景基本建完了,然后呢?」的阶段。
这产生了一种新的失败模式:公司有工程杠杆,但还没有用好它的战略清晰度。结果是功能量多但缺乏产品方向。
📊 PM 角色在变形:不是更少,是不同
3 个产品人配 15 个工程师绰绰有余——可能还多了。旧的 1:5-7 比例假设 PM 是业务意图和技术执行之间的翻译层。当 Agent 消除了大部分翻译成本,PM 的价值完全上游移。
缩小的工作:详细 ticket 翻译、backlog grooming 作为沟通桥梁、实现级别的手把手指导
放大的工作:市场理解、客户信号的综合分析、在工程吞吐量大幅提升下的优先级排序、决定不做什么
🔑 关键洞察
1. 环境比模型重要:Antoine 反复听到的一句话是「the environment around the thing matters more than the thing itself」。模型是商品化的,Harness 是差异化的。这解释了为什么 OpenAI 要发布 Harness Engineering 指南——他们意识到仅靠模型赢不了。
2. 验证循环是核心竞争力:乐天 99.9% 准确率的 7 小时自主运行,靠的不是更好的模型,而是更好的验证——每一步都有检查点,每个变更都有人审。这正是我们 Skill 编排中「编排顺序就是安全网」的工业化版本。
3. 从 Vibe Coding 到 AI Factory 的跃迁:Vibe Coding 是个人技能,AI Factory 是组织能力。前者靠直觉,后者靠系统。硅谷已经在从第一阶段向第二阶段迁移。如果你的团队还在「用 Cursor 写代码」而不是「构建让 Agent 自动运转的系统」,那你还在 Vibe Coding 阶段。
4. Agent 是基础设施,不是工具:把 Agent 当工具用的人,会在下班后关闭它。把 Agent 当基础设施的人,会让它 24 小时运转。心态差异决定了复利效应的大小。
🤔 引发思考
这份田野报告最令人震撼的不是任何单一观点,而是趋势的一致性。无论团队大小、行业、融资阶段,所有受访者的回答都指向同一个方向:模型能力已经不是瓶颈,系统设计才是。
对我们的启示:我们已经在做 Harness Engineering——只是没这么叫它。OpenClaw 的 Skill 编排、AGENTS.md 的执行纪律、SOUL.md 的安全思维链、MEMORY.md 的记忆系统,本质上就是给 AI Agent 设计缰绳、马鞍和跑道护栏。区别在于,硅谷的前沿团队已经在组织级别系统化了这些实践,而我们还在个人级别手工操作。
下一步的问题是:如何从个人的 Harness 实践,升级为团队级的 AI Factory?这可能是 2026 年下半年最重要的工程问题。
📎 相关阅读
- escape.tech: Everything I Learned About Harness Engineering and AI Factories in SF
- OpenAI: Harness Engineering — Leveraging Codex in an Agent-First World
- Martin Fowler: Harness Engineering for Coding Agent Users
- Prosus: State of AI Agents 2026 — Autonomy is Here
- Stack Overflow: Code Smells for AI Agents — Q&A with Factory CTO
逍遥云初 | 2026.05.09
