📌 核心问题

2026年4月23日,OpenAI发布GPT-5.5(内部代号Spud)。这不是常规增量更新——它是自GPT-4.5以来第一个完全从头训练的基础模型,中间版本都是在同一架构上做增量改进。GPT-5.5是彻底的重建。

核心意义:OpenAI在Agentic Coding、Computer Use和长上下文三个关键维度同时取得显著突破。更重要的是,GPT-5.5在变强的同时没有变慢——打破了越大越慢的铁律。

📊 关键数据

  • Terminal-Bench 2.0(命令行工作流):82.7% vs Claude Opus 4.7的69.4%,领先13+个百分点
  • MRCR v2 512K-1M长上下文:74.0% vs GPT-5.4的36.6%,37个百分点飞跃
  • ARC-AGI-2抽象推理:85.0% vs GPT-5.4的73.3%,提升11.7个百分点
  • FrontierMath Tier 4:35.4% vs Claude的22.9%,数学推理断层领先
  • Expert-SWE(人类中位完成时间20小时的编码任务):73.1% vs GPT-5.4的68.5%
  • CyberGym网络安全:81.8% vs Claude的73.1%
  • SWE-Bench Pro:58.6%——注意Claude Opus 4.7仍以64.3%领先此项
  • API价格:$5/$30 per M tokens(GPT-5.4的2倍),但token效率提升约40%,实际成本增加约20%
关键洞察:GPT-5.5不是全面碾压。在SWE-Bench Pro和MCP Atlas上,Claude Opus 4.7仍然领先。竞争格局从谁是第一变成了谁在什么场景下最强。

🏗️ 技术架构

三个核心变化

  • 原生全模态:文本、图像、音频、视频在单一统一架构中处理。之前多模态模型本质是多个模型拼接,GPT-5.5是端到端统一系统
  • 硬件协同设计:与NVIDIA GB200/GB300 NVL72机架级系统共同设计,这就是为什么能力大幅提升的同时per-token延迟与GPT-5.4持平
  • 自改进基础设施:GPT-5.5和Codex在发布前重写了OpenAI自己的服务基础设施,分析数周生产流量编写自定义负载均衡,token生成速度提升20%+

效率突破

GPT-5.5完成相同Codex任务使用token比GPT-5.4少约40%。结合2倍价格,实际成本增加约20%。在Artificial Analysis的Coding Index上,以竞争对手一半成本达到SOTA。


🔑 关键洞察

1. Agentic Coding的质变

Terminal-Bench 2.0的82.7%意味着模型能真正处理复杂命令行工作流:规划、迭代、工具协调。早期测试者描述了一个能理解系统形状的模型:为什么出问题、修复落在哪、代码库还有什么受影响。Every CEO Dan Shipper说这是第一个具有真正概念清晰度的编码模型。

2. 长上下文是最被低估的改进

MRCR v2 512K-1M的74.0% vs 36.6%是质变。工作流涉及处理整个代码库、大型文档集或多小时对话日志时,这是质的飞跃。API支持1M token上下文窗口。

3. Claude仍然有护城河

SWE-Bench Pro上Claude Opus 4.7以64.3% vs 58.6%领先。MCP Atlas上79.1% vs 75.3%。Humanity's Last Exam上46.9% vs 41.4%。竞争不再是选最强的,而是选最适合你的场景的。

4. 安全评估新高度

GPT-5.5在网络安全被评为High能力级别。UK AISI发现pass@5为90.5%。The New Stack标题Mythos-like hacking open to all——GPT-5.5带来可与Anthropic未发布的Mythos媲美的网络安全能力。安全与能力的平衡成为新竞争维度。


🚀 引发思考

GPT-5.5标志着AI模型竞争进入新阶段。不再是单纯benchmark数字比拼,而是在什么场景、以什么成本、达到什么效果的精细化竞争。OpenAI通过硬件协同设计和token效率优化打破了越大越慢的魔咒。但Claude在SWE-Bench和工具编排上的领先表明,模型能力差异化已深入到具体工作流层面。

对开发者来说,选择模型不再是选最强的,而是选最适合你的场景的。这是更成熟也更复杂的市场。


逍遥云初 | 2026.05.05