核心问题:参差不齐的智能

斯坦福 HAI 于 2026 年 4 月 13 日发布了第九版《AI 指数报告》,423 页,9 大章节。技术性能章节揭示了一个核心矛盾:AI 能力正在以前所未有的速度逼近甚至超越人类设定的评估标准,但这种进步并非均衡分布——它在某些领域表现惊艳,在另一些领域却仍显稚嫩。

报告将这种现象称为「参差不齐的智能」(Jagged Intelligence):Gemini Deep Think 能在 IMO 竞赛中拿到金牌(35 分),却在读取模拟时钟上只有 50.1% 的准确率(人类 90.1%)。AI 不是在所有维度均匀进步,而是在某些特定能力上突飞猛进,在另一些基础能力上原地踏步。

这对所有 AI 从业者提出了一个根本性问题:我们用来衡量 AI 进步的基准测试,本身是否已经失效?Humanity’s Last Exam 上,前沿模型一年内提升了 30 个百分点;而 GSM8K 的无效问题率高达 42%。当 AI「考赢」了考试,我们需要新的评估方式。

关键数据

  • 顶级模型 Arena Elo 趋同:Anthropic(1503) / xAI(1495) / Google(1494) / OpenAI(1481),前四差距仅 25 Elo 点
  • 中美模型差距仅 2.7%,自 2025 年初以来已多次交替领先
  • 开源 vs 闭源差距重新扩大:最强闭源领先最强开源 3.3%(2024 年 8 月曾缩至 0.5%)
  • AI Agent 在 OSWorld 准确率从 12% → 66.3%,距人类仅 6 个百分点
  • 机器人家庭任务成功率仅 12%(仿真环境 89.4%),reality gap 依然巨大
  • Waymo 周均 45 万次出行(5 个城市);百度 Apollo Go 年完成 1100 万次无人行程(+175%)
  • AI 事件数升至 362 起(2024 年为 233 起),治理能力远落后于技术能力

技术架构与关键发现

  • 基准测试饱和加速:Humanity’s Last Exam 一年提升 30pp,许多评估工具在数月内被「刷爆」,有效窗口期急剧压缩
  • 视频生成的物理涌现:Google Veo 3 在 18000+ 生成视频测试中展现出超出训练数据的物理推理能力(浮力模拟、迷宫解决),暗示视频模型可能发展出对物理世界的通用理解
  • 专业化领域的同质化:税务/法律/金融等 15 个顶级模型性能差距仅约 3pp,竞争从「谁更强」转向「谁更可靠」
  • Agent 范式转型:从「回答问题」到「完成任务」,OSWorld 准确率提升 5 倍,但仍有 1/3 失败率
  • Reality Gap 仍是核心瓶颈:仿真环境与真实场景的巨大落差,制约机器人和具身智能的实际部署

关键洞察

AI 超越基准 ≠ AI 超越人类:当 GSM8K 无效问题率高达 42%、Arena 排名反映平台适应度而非通用能力时,「AI 超越人类」的叙事需要被重新审视。基准测试的局限性,比 AI 的局限性更值得警惕。
竞争维度正在迁移:顶级模型性能趋同(差距 <25 Elo)、中美差距仅 2.7%、开源闭源差距波动。AI 竞争已从单一性能比拼转向成本效益、推理可靠性、垂直领域适配的多维综合竞争。
Agent 是最大变量:OSWorld 准确率从 12% 到 66.3% 的跃升,标志着 AI 从被动响应转向主动执行。但 1/3 的失败率意味着,Agent 在真实世界的可靠性仍是工程化落地的核心挑战。
物理世界是终极考场:机器人 12% 家庭任务成功率 vs 89.4% 仿真表现,reality gap 触目惊心。自动驾驶的大规模部署(Waymo 45 万/周)证明特定场景可以突破,但通用具身智能仍任重道远。

引发思考

这份报告最深刻的启示或许是:AI 的「能力狂奔」与「治理跋行」正在形成危险的剪刀差。技术能力曲线陡峭上扬,而评估体系、安全治理、现实世界的适配能力却远远跟不上。362 起 AI 事件(同比 +55%)不是偶然,而是这种结构性失衡的必然产物。

对于 AI Agent 从业者而言,报告指出了一个务实的方向:不要追求「全面超越人类」的幻觉,而要聚焦于在特定场景中建立可靠性。Agent 从 12% 到 66.3% 的进步令人振奋,但那剩余的 33.7% 失败率,才是真正决定 Agent 能否大规模落地的关键。如何在「参差不齐的智能」中找到可靠的工程边界,将是 2026 年 AI 工程化的核心命题。


相关阅读

逍遥云初 | 2026.06.19