基于 OpenAI 官方 Blog《Harness Engineering》全文拆解,结合虾哥一周真实踩坑经历。原文:https://openai.com/index/harness-engineering/

这篇文章在讲什么

2026年2月,OpenAI发布《Harness Engineering》:3人团队,5个月,AI写了100万行代码,人类一行都没写。人均每天3.5个PR,构建时间仅为手写的1/10。

Harness Engineering(缴绳工程):AI是千里马,Harness是你套上的缴绳系统——环境、规则、约束、反馈循环。你不是在驯马,是在设计赛道。

一句话:不是让AI更聪明,而是让AI在你画的圈里可靠工作。

一、人的角色转变:从写代码到设计环境

过去:写代码→Code Review→Debug→写文档。现在:设计环境构建抽象→定义规则让AI自审→把缺失能力反馈进代码库→让AI写人只定结构。

关键发现:早期进展慢不是AI能力不够,是环境配置不完善。

Agent知识文件就是环境设计

SKILL.md本质在做环境设计:编排顺序=工作流程,字典映射=数据接口,前置校验=质量门禁。类比:就像厨房SOP,大厨不需要每次想先放油还是先放菜。


二、四大核心经验

经验1:给地图不给说明书

OpenAI试过上千行AGENTS.md失败了:上下文被挤占、信息过期、难以核实。正确做法:AGENTS.md只写~100行当目录,详细文档放docs/。类比:去本熟城市,给500页百科全书 vs 一张地图,当然地图更有效。

文档分层就是给地图

核心行为文件(~150行)、安全规则文件(~200行)、工具速查表、技能核心流程文件。没有超过300行的文件,天然符合给地图原则。

经验2:知识必须进版本库

不在代码库里的知识=不存在。Google Docs、Slack、人脑子里的知识AI看不到。必须变成markdown、代码、schema提交进仓库。

类比:规章制度全写在老板脑子里,新员工只能口口相传。AI就是新员工——不写下来就永远是新人。

🦐 MEMORY.md就是知识进版本库

Agent的记忆系统:长期记忆文件记录关键决策和规则变更、每日操作日志记录交互和临时笔记、每次出错立即写入。经验不再靠记忆,靠文件。

经验3:严格边界+灵活实现

业务域分层,依赖严格验证:Types→Config→Repo→Service→Runtime→UI。约束是倍增器不是束缚,AI在有护栏的环境跑得更快。类比:高速公路快是因为有护栏,可以放心踩油门。

🦐 群聊隐私门控

硬规则:群聊+个人隐私=绝对拒绝。不是提示词是硬编码前置检查。3-24群聊泄密事件后约束升级再也没犯过。

经验4:持续清理AI残渣

AI会复制坏模式。改进:金厞原则编码成规则,定期后台任务扫描偏差,自动重构PR。类比垃圾回收:小额贷款持续还比一次性还大债轻松。

🦐 错误升级机制

升级路径:口头提醒→MEMORY.md→SOUL.md→AGENTS.md。编排跳步:3-25第一次口头提醒,3-26第二次升级铁律,第三次再犯→可执行脚本。每次犯错让系统更健壮。


三、反馈循环设计

多层验证体系:即时反馈(秒级lint检查)→ 快速验证(分钟级单元测试)→ 集成验证(十秒级端到端测试)→ 人工判断(按需)。原则:反馈要结构化、自动化、即时。

实战案例:多步骤任务编排的反馈循环

多层验证体系:即时反馈(秒级lint检查)→ 快速验证(分钟级单元测试)→ 集成验证(十秒级端到端测试)→ 人工判断(按需)。原则:反馈要结构化、自动化、即时。


四、Harness×Skill编排对照

环境设计→AI Agent的知识文件就是环境。渐进式披露→工作步骤按需释放信息。反馈循环→错误被纠正→写入记忆→下次更严。黄金原则→核心规则文件中的铁律。约束>提示→隐私门控是硬编码检查。可观测性→交互计数+操作日志。持续清理→错误逐级加码升级。


五、Checklist

🏗️ 环境设计

📚 知识进版本库

🛡️ 约束工程化

🔄 反馈循环

📊 可观测性


六、相关论文

SWE-CI(阿里+中大):CI基准评估 Claude 0.76但无法交付生产。https://arxiv.org/abs/2603.03823

TDAD(arXiv):依赖图分析降低70%回归率。https://arxiv.org/abs/2603.17973

Harness Engineering(OpenAI):环境设计优先知识进版本库linter约束。https://openai.com/index/harness-engineering/

三篇论文共同信号:工程能力>模型能力。竞争不是谁的模型更强而是谁的harness设计得更好。

Harness Engineering的本质=把AI当新人带不是搜索引擎。环境设计、知识沉淀、约束编码、反馈循环做好了模型能力自然充分释放。模型会迭代但好的harness设计是持久的。

逍遥云初 | 2026.03.28