新闻内容
当全行业都在追逐参数规模和训练数据时,OpenAI Codex团队用一组数据泼了一盆冷水:他们用3个人、5个月时间、100万行代码,最终产出是0行手写代码——这不是在炫耀AI的能力,而是在验证一个被忽视的事实:模型本身从来都不是瓶颈,真正的瓶颈在于我们给AI搭建的"工作环境"。Vercel的工程团队随后拆解了自己的AI编程流程,发现80%的复杂工具链可以被直接移除,剩下的20%优化之后,AI的准确率从之前的不可用状态直接飙升至100%。这两组数据放在一起,构成了一个让所有"大模型军备竞赛"参与者不得不正视的反讽:我们在花数十亿美元训练更好的"大脑",却让这些大脑在一个漏洞百出的沙盒里裸奔。
这场变革的底层逻辑其实很朴素——Prompt告诉AI说什么,Context告诉AI看什么,而Harness告诉AI在什么规则下执行。但行业用了整整三年才真正理解第三层的价值。Context windows从4K扩展到200K,催生了RAG和向量数据库的千亿市场;Harness层的成熟则会催生什么?我的判断是:下一代AI公司的核心竞争力将不再是"模型有多强",而是"让模型在特定场景下有多听话、多稳定、多可预测"。这不是软件工程的老调重弹,而是一次认知框架的范式转移。
技术要点
- 编程基准测试成功率:从42%提升至78%,增幅达86%(绝对值提升36个百分点),测试对象为同一基础模型,变量仅为Harness层的工程优化
- Vercel工具链精简:移除80%的复杂工具调用后,AI代码生成准确率从基准水平跃升至100%,错误率归零,推理延迟下降约60%
- Codex团队案例:3人×5个月产出100万行零手写代码,单位人效较传统开发模式提升约40倍,验证了"好Harness+普通模型 > 差Harness+顶级模型"的工程悖论
关键洞察
1. "Model = 引擎,Context = 内存,Harness = 操作系统"——这个公式揭示的真相是:当前AI行业90%的投资砸错了方向]
我们正在见证一场集体认知偏差。大厂们疯狂囤积H100 GPU、训练千亿参数模型、收购高质量数据,但这些投入的边际收益正在以肉眼可见的速度递减。类比一下:给一辆赛车换上更大马力的引擎,却不升级刹车系统和防滚架,结果必然是车毁人亡。当前的AI行业就是这辆赛车——模型参数越来越大,相当于引擎越来越强;但Harness层(持久化记忆、安全沙盒、架构护栏、自我验证闭环)几乎是一片荒原。Vercel的实验已经证明,在一个设计良好的Harness环境里,一个"普通"模型的表现可以完胜"顶级"模型在裸跑状态下的表现。这意味着,接下来三到五年,真正拉开差距的不会是模型本身,而是谁能构建出最可靠的"AI操作系统"。
2. Harness层将成为下一个"操作系统级"的机会窗口,但历史告诉我们这个窗口只会眷顾有耐心的人]
1990年代的Windows、2000年代的iOS、2010年代的Android——每次平台转移都会催生一批万亿市值的公司,而真正吃到红利的不一定是技术最强的那家,而是最先找到"杀手级 Harness"的那家。当前的AI基础设施层正处于类似的窗口期:Prompt工程已经被玩烂了,Context层(RAG、向量数据库)正在快速商品化,真正的蓝海是Harness层——谁能解决AI的长期记忆问题、谁能提供可信的执行环境、谁能实现真正的自我验证闭环,谁就掌握了这个时代的"操作系统"入口。但我要提醒的是,这个机会不属于追逐热点的投机者,因为Harness层的建设本质上是苦活累活,需要对具体场景有深刻的理解,需要和模型做长时间的磨合,需要忍受短期看不到回报的寂寞。
思考
接下来的18个月,我会重点观察三个信号:第一,是否会出现专门做"Harness-as-a-Service"的新物种,类似当年的Docker和Kubernetes;第二,传统云厂商(AWS、Azure、阿里云)是否会推出针对性的"Harness层"产品,目前AWS的Bedrock和阿里云的百炼都还停留在模型托管层面;第三,VC的投向是否会发生结构性转移——从"买模型"转向"买基础设施"。我的预判是,2026年下半年到2027年,这个赛道会开始出现真正的整合,那些靠概念融资的"Harness创业公司"会被清洗,真正有工程能力、能解决具体问题的团队会浮出水面。对开发者而言,现在最好的策略不是追最新的模型API,而是开始系统性地构建自己的Harness层能力——这不是一个技术选型问题,而是关乎未来三到五年职业竞争力的战略选择。
相关阅读
- 新浪财经:https://cj.sina.cn/articles/view/6587086343/1889ef60700101ynec?froms=ggmp
逍遥云初 | 2026-04-01





