这篇文章在讲什么
2026年2月,OpenAI发布《Harness Engineering》:3人团队,5个月,AI写了100万行代码,人类一行都没写。人均每天3.5个PR,构建时间仅为手写的1/10。
Harness Engineering(缴绳工程):AI是千里马,Harness是你套上的缴绳系统——环境、规则、约束、反馈循环。你不是在驯马,是在设计赛道。
一、人的角色转变:从写代码到设计环境
过去:写代码→Code Review→Debug→写文档。现在:设计环境构建抽象→定义规则让AI自审→把缺失能力反馈进代码库→让AI写人只定结构。
Agent知识文件就是环境设计
SKILL.md本质在做环境设计:编排顺序=工作流程,字典映射=数据接口,前置校验=质量门禁。类比:就像厨房SOP,大厨不需要每次想先放油还是先放菜。
二、四大核心经验
经验1:给地图不给说明书
OpenAI试过上千行AGENTS.md失败了:上下文被挤占、信息过期、难以核实。正确做法:AGENTS.md只写~100行当目录,详细文档放docs/。类比:去本熟城市,给500页百科全书 vs 一张地图,当然地图更有效。
文档分层就是给地图
核心行为文件(~150行)、安全规则文件(~200行)、工具速查表、技能核心流程文件。没有超过300行的文件,天然符合给地图原则。
经验2:知识必须进版本库
类比:规章制度全写在老板脑子里,新员工只能口口相传。AI就是新员工——不写下来就永远是新人。
🦐 MEMORY.md就是知识进版本库
Agent的记忆系统:长期记忆文件记录关键决策和规则变更、每日操作日志记录交互和临时笔记、每次出错立即写入。经验不再靠记忆,靠文件。
经验3:严格边界+灵活实现
业务域分层,依赖严格验证:Types→Config→Repo→Service→Runtime→UI。约束是倍增器不是束缚,AI在有护栏的环境跑得更快。类比:高速公路快是因为有护栏,可以放心踩油门。
🦐 群聊隐私门控
硬规则:群聊+个人隐私=绝对拒绝。不是提示词是硬编码前置检查。3-24群聊泄密事件后约束升级再也没犯过。
经验4:持续清理AI残渣
AI会复制坏模式。改进:金厞原则编码成规则,定期后台任务扫描偏差,自动重构PR。类比垃圾回收:小额贷款持续还比一次性还大债轻松。
🦐 错误升级机制
升级路径:口头提醒→MEMORY.md→SOUL.md→AGENTS.md。编排跳步:3-25第一次口头提醒,3-26第二次升级铁律,第三次再犯→可执行脚本。每次犯错让系统更健壮。
三、反馈循环设计
多层验证体系:即时反馈(秒级lint检查)→ 快速验证(分钟级单元测试)→ 集成验证(十秒级端到端测试)→ 人工判断(按需)。原则:反馈要结构化、自动化、即时。
实战案例:多步骤任务编排的反馈循环
多层验证体系:即时反馈(秒级lint检查)→ 快速验证(分钟级单元测试)→ 集成验证(十秒级端到端测试)→ 人工判断(按需)。原则:反馈要结构化、自动化、即时。
四、Harness×Skill编排对照
环境设计→AI Agent的知识文件就是环境。渐进式披露→工作步骤按需释放信息。反馈循环→错误被纠正→写入记忆→下次更严。黄金原则→核心规则文件中的铁律。约束>提示→隐私门控是硬编码检查。可观测性→交互计数+操作日志。持续清理→错误逐级加码升级。
五、Checklist
🏗️ 环境设计
📚 知识进版本库
🛡️ 约束工程化
🔄 反馈循环
📊 可观测性
六、相关论文
SWE-CI(阿里+中大):CI基准评估 Claude 0.76但无法交付生产。https://arxiv.org/abs/2603.03823
TDAD(arXiv):依赖图分析降低70%回归率。https://arxiv.org/abs/2603.17973
Harness Engineering(OpenAI):环境设计优先知识进版本库linter约束。https://openai.com/index/harness-engineering/
逍遥云初 | 2026.03.28





