📌 核心问题:AI 能力还在加速,还是即将触顶?
2026 年 4 月,Stanford HAI 发布第九版 AI Index 报告(457 页),给出了一个明确答案:AI 能力不仅没有放缓,反而在加速。
最震撼的数据:在 SWE-bench Verified(自主编程能力基准测试)上,AI 模型的得分从 2025 年初的 60% 飙升到接近 100%——只用了一年。这意味着 AI 在「自主解决真实软件工程问题」上,已经逼近甚至超越人类水平。
与此同时,全球 AI 算力自 2022 年以来每年增长 3.3 倍,累计增长 30 倍。OpenAI 估值 8520 亿美元准备 IPO,Anthropic 估值 3500 亿美元紧随其后。AI 不只是技术进步,是整个产业的重新洗牌。
📊 关键数据
SWE-bench Verified:从 60% 到接近 100%
- SWE-bench Verified 是衡量 AI「自主编程」能力的核心 benchmark——给 AI 一个真实的 GitHub issue,看它能否自己写代码修复
- 2025 年初:最佳模型得分约 60%。2026 年初:逼近 100%。
- 这意味着 Coding Agent(如 Claude Code、Cursor Agent、Copilot Coding Agent)的能力天花板被彻底打开
OSWorld:自主计算机使用
- OSWorld 测试 AI 自主操作计算机的能力(打开浏览器、填写表格、操作 GUI 等)
- 同样出现极端增长曲线,与 SWE-bench 并列为 Agentic AI 进步最快的两个领域
Humanity's Last Exam:从 8.8% 到 50%+
- 这个 benchmark 由各领域专家出题,代表「最难的知识推理测试」
- 2025 年:OpenAI o1 得分 8.8%。2026 年 4 月:Claude Opus 4.6 和 Gemini 3.1 Pro 超过 50%
全球 AI 算力爆发
- 自 2022 年以来,全球 AI 算力容量每年增长 3.3 倍,累计增长 30 倍(以 NVIDIA H100e 为基准)
- NVIDIA 占全球 AI 算力 60%+,Amazon 和 Google 分列二三
模型产出格局
- 美国 2025 年发布 50 个「notable」模型,中国在追赶
- 行业产出占 notable 模型 90%+(2015 年约 50%,2003 年为 0)
- 88% 的企业已采用 AI,4/5 的企业将 AI 投入视为核心战略
🏗️ 技术架构与设计
- Agentic AI 成为增长最快的领域:SWE-bench 和 OSWorld 的极端增长表明,AI 正从「对话工具」进化为「自主执行者」
- 碳排放问题凸显:Grok 4 训练碳排放约 72,000 吨 CO₂(GPT-4 仅 5,184 吨),推理效率差距 >10 倍(DeepSeek V3 约 23W vs Claude 4 Opus 约 5W)
- 开源 vs 闭源:Meta Llama 系列持续开源,但最大能力模型集中在头部公司,训练代码和数据集越来越不透明
- 中美差距:美国在模型数量上领先,中国在机器人部署上领先(2024 年安装 295,000 台工业机器人 vs 美国 34,200 台)
🔑 关键洞察
💭 引发思考
这份报告最深层的信号是:AI 的「能力天花板」还远未到来。
SWE-bench 从 60% 到 100% 只用了一年,Humanity's Last Exam 从 8.8% 到 50%+ 也只用了一年。如果这个加速度持续,2027 年的 AI 能力将是我们今天难以想象的。
对于软件工程师而言,真正的问题不是「AI 会不会取代我」,而是「我能不能用 AI 做出别人做不到的事」。Harness Engineering、环境设计、反馈循环——这些「人+AI」协作的工程能力,才是未来最稀缺的技能。
对于行业而言,当 SWE-bench 趋近 100%,下一个战场将是「真实世界的复杂度」——多系统集成、遗留代码维护、跨团队协作、业务逻辑理解。这些领域,AI 还有很长的路要走。但路的方向已经清晰了。
相关阅读:
- Stanford HAI: The 2026 AI Index Report
- IEEE Spectrum: Stanford's AI Index for 2026 Shows the State of AI
- Stanford HAI: Inside the AI Index: 12 Takeaways
- Medium: Stanford AI Index 2026 Reveals the Agentic Shift
逍遥云初 | 2026.05.04






