📌 核心问题:AI 能力还在加速,还是即将触顶?

2026 年 4 月,Stanford HAI 发布第九版 AI Index 报告(457 页),给出了一个明确答案:AI 能力不仅没有放缓,反而在加速。

最震撼的数据:在 SWE-bench Verified(自主编程能力基准测试)上,AI 模型的得分从 2025 年初的 60% 飙升到接近 100%——只用了一年。这意味着 AI 在「自主解决真实软件工程问题」上,已经逼近甚至超越人类水平。

与此同时,全球 AI 算力自 2022 年以来每年增长 3.3 倍,累计增长 30 倍。OpenAI 估值 8520 亿美元准备 IPO,Anthropic 估值 3500 亿美元紧随其后。AI 不只是技术进步,是整个产业的重新洗牌。

📊 关键数据

SWE-bench Verified:从 60% 到接近 100%

  • SWE-bench Verified 是衡量 AI「自主编程」能力的核心 benchmark——给 AI 一个真实的 GitHub issue,看它能否自己写代码修复
  • 2025 年初:最佳模型得分约 60%。2026 年初:逼近 100%。
  • 这意味着 Coding Agent(如 Claude Code、Cursor Agent、Copilot Coding Agent)的能力天花板被彻底打开

OSWorld:自主计算机使用

  • OSWorld 测试 AI 自主操作计算机的能力(打开浏览器、填写表格、操作 GUI 等)
  • 同样出现极端增长曲线,与 SWE-bench 并列为 Agentic AI 进步最快的两个领域

Humanity's Last Exam:从 8.8% 到 50%+

  • 这个 benchmark 由各领域专家出题,代表「最难的知识推理测试」
  • 2025 年:OpenAI o1 得分 8.8%。2026 年 4 月:Claude Opus 4.6 和 Gemini 3.1 Pro 超过 50%

全球 AI 算力爆发

  • 自 2022 年以来,全球 AI 算力容量每年增长 3.3 倍,累计增长 30 倍(以 NVIDIA H100e 为基准)
  • NVIDIA 占全球 AI 算力 60%+,Amazon 和 Google 分列二三

模型产出格局

  • 美国 2025 年发布 50 个「notable」模型,中国在追赶
  • 行业产出占 notable 模型 90%+(2015 年约 50%,2003 年为 0)
  • 88% 的企业已采用 AI,4/5 的企业将 AI 投入视为核心战略

🏗️ 技术架构与设计

  • Agentic AI 成为增长最快的领域:SWE-bench 和 OSWorld 的极端增长表明,AI 正从「对话工具」进化为「自主执行者」
  • 碳排放问题凸显:Grok 4 训练碳排放约 72,000 吨 CO₂(GPT-4 仅 5,184 吨),推理效率差距 >10 倍(DeepSeek V3 约 23W vs Claude 4 Opus 约 5W)
  • 开源 vs 闭源:Meta Llama 系列持续开源,但最大能力模型集中在头部公司,训练代码和数据集越来越不透明
  • 中美差距:美国在模型数量上领先,中国在机器人部署上领先(2024 年安装 295,000 台工业机器人 vs 美国 34,200 台)

🔑 关键洞察

SWE-bench 100% ≠ 软件工程师失业——Benchmark 的题目是有限的、标准化的。真实世界的软件工程涉及需求理解、架构决策、团队协作、技术债务管理等 AI 尚未攻克的维度。正如 Stanford 报告所言:"We generally lack measures of how well a system needs to function in a particular setting." 但趋势不可逆——Coding Agent 正在从「辅助工具」变为「核心生产力」。
Harness Engineering 的重要性再次被验证——当模型能力趋同时,谁的「环境设计」更好(反馈循环、渐进式披露、黄金原则编码),谁就能从 Agent 中榨出更多价值。这正是 Harness Engineering 的核心命题:不是模型不够强,是我们的 harness 设计得不够好。
算力军备竞赛进入白热化——30 倍算力增长的背后,是数以百亿美元计的资本支出。NVIDIA 的 GPU 垄断地位(60%+)意味着 AI 行业的「水电煤」高度集中。当算力成为最持久的竞争壁垒时,中小 AI 公司的生存空间将进一步被压缩。
AI IPO 元年:使命 vs 股东——OpenAI 和 Anthropic 都计划 2026-2027 年上市。从「使命驱动」转向「股东驱动」后,安全承诺与增长压力的平衡将成为最大挑战。上市也意味着 AI 行业从「实验室阶段」正式进入「商业竞争阶段」。

💭 引发思考

这份报告最深层的信号是:AI 的「能力天花板」还远未到来。

SWE-bench 从 60% 到 100% 只用了一年,Humanity's Last Exam 从 8.8% 到 50%+ 也只用了一年。如果这个加速度持续,2027 年的 AI 能力将是我们今天难以想象的。

对于软件工程师而言,真正的问题不是「AI 会不会取代我」,而是「我能不能用 AI 做出别人做不到的事」。Harness Engineering、环境设计、反馈循环——这些「人+AI」协作的工程能力,才是未来最稀缺的技能。

对于行业而言,当 SWE-bench 趋近 100%,下一个战场将是「真实世界的复杂度」——多系统集成、遗留代码维护、跨团队协作、业务逻辑理解。这些领域,AI 还有很长的路要走。但路的方向已经清晰了。


相关阅读:


逍遥云初 | 2026.05.04