GPT-5.5 深度拆解:首个完全重训模型的 Agent 野心

链接:https://openai.com/index/introducing-gpt-5-5/

团队:OpenAI | 发布日期:2026 年 4 月 24 日 | 代号 Spud


核心定位

OpenAI 自 GPT-4.5 以来首个完全重训模型,非蒸馏/微调,距 GPT-5.4 仅 6 周。官方定义:迄今为止最智能、最直观的模型。

关键转折点:Codex 独立产品线正式并入主模型。GPT-5.3 时代还有单独的 Codex 模型,从 5.4 开始统一,5.5 彻底合流——编程能力不再是附属模块,而是模型的核心能力之一。

三大核心方向

1. Agentic Coding——主战场

这是 GPT-5.5 投入最重、提升最显著的方向。Terminal-Bench 2.0 测试复杂命令行工作流——需要规划、迭代、工具协调,直接对应真实开发场景。GPT-5.5 达到 82.7%,GPT-5.4 为 75.1%,Claude Opus 4.7 为 69.4%,Gemini 3.1 Pro 为 68.5%。

Expert-SWE 是 OpenAI 内部评测,任务中位数需人类工程师 20 小时完成。GPT-5.5 达到 73.1%,GPT-5.4 为 68.5%。在需要长时间自主推理的长任务上,进步幅度显著。

SWE-Bench Pro 评估真实 GitHub Issue 修复,GPT-5.5 达到 58.6%,单次通过解决更多端到端任务。

早期测试者反馈——比 benchmark 更有价值

  • Every CEO Dan Shipper:第一个有严肃概念清晰度的编程模型——能让一个坏掉的系统重写到和资深工程师手工决策一致的方案,5.4 做不到,5.5 做到了
  • MagicPath CEO Pietro Schirano:GPT-5.5 一次 merge 了数百个前端+重构变更的分支到另一个也大幅变动的主分支,约 20 分钟完成
  • NVIDIA 工程师原话:失去 GPT-5.5 的访问权限,就像被截肢了一样。

2. 计算机操控 + 工具使用

GDPval 测 AI 能否像人一样完成实际工作任务——写文档、做表格、分析数据、操作软件。GPT-5.5 达到 84.9%,GPT-5.4 为 83.0%,Gemini 3.1 Pro 仅 67.3%。差距巨大,说明 GPT-5.5 在知识工作场景的通用能力也拉开了身位。

Toolathlon 工具使用:55.6% vs 5.4 的 54.6% 和 Gemini 的 48.8%。BrowseComp 网页浏览:84.4%,但 Gemini 3.1 Pro 以 85.9% 反超——这是 Gemini 少数领先的评测之一。

3. 科研加速

FrontierMath T1-3 高难度数学推理:51.7%,GPT-5.4 为 47.6%,Opus 4.7 为 43.8%。FrontierMath T4 天花板级:35.4%,对比 5.4 的 27.1% 和 Opus 4.7 的 22.9%,进步幅度 30%+。CyberGym 网络安全:81.8%,Opus 4.7 为 73.1%。

最被低估的信号:Token 效率

这才是对工程侧影响最大的变化。GPT-5.5 完成相同 Codex 任务的 token 消耗显著低于 5.4。第三方对比显示,在相同编程任务上,GPT-5.5 vs Claude Opus 4.7 的输出 token 减少 72%。Artificial Analysis Coding Index 显示同等智能水平下成本仅为竞品的一半。

API 定价:输入 $5/百万 token,输出 $30/百万 token。Token 效率直接决定了 Agent 循环的可行性和可靠性——每一步 Agent 动作都要消耗 token,token 越少意味着同样预算下能执行更多步骤、上下文窗口中能塞入更多历史、长任务的失败概率降低。

对 Harness Engineering 的启示:OpenAI 把用更少 token 做更多事作为核心卖点,这和 Harness Engineering 的理念完全一致——好的环境设计让模型更高效地工作,而不是单纯靠模型能力硬扛。

同日对手:DeepSeek V4

4/24 同日,DeepSeek V4 预览版上线并开源。1.6 万亿参数,百万 token 上下文标配,百万 token 下每 token 算力消耗远低于 V3.2。Pro 版 API 价格:输入 ¥0.25/百万 token,缓存命中,¥3 未命中——2.5 折特惠。适配国产算力生态,华为云首发。

格局:OpenAI 走高智能+合理定价路线,DeepSeek 走极致性价比+开源路线。同日发布不是巧合,是中美 AI 竞争的标志性事件。

产业影响

  1. Codex 生态扩张:GPT-5.5 已上线 GitHub Copilot,NVIDIA 基础设施直接支撑。token 消耗降低意味着 Copilot 定价压力减小,企业采用门槛降低
  2. Agent 框架受益:LangGraph、CrewAI 等多 Agent 框架在 GPT-5.5 上的 token 成本会显著降低,长任务可靠性提升
  3. Claude Code 的压力:Claude Code 2 月 ARR 已达 $2.5B,增速惊人,但 GPT-5.5 在 token 效率上的碾压直接冲击了 Claude 的核心优势场景
  4. 模型军备竞赛白热化:6 周一个大版本,Anthropic Mythos 同日发布,Google 投资 Anthropic $400 亿——这不是常规迭代,是冲刺

关键洞察

洞察一:编程能力从特色功能变成了基础能力

Codex 并入主模型意味着 OpenAI 认为编程不再是垂直场景,而是像多语言能力一样是通用模型的标配。这对所有 Coding Agent 创业公司是降维打击。当编程能力变成模型的内置能力,独立的 Coding Agent 产品需要找到新的价值锚点——编排、工作流集成、企业级管控,而不是单纯的代码生成。

洞察二:Token 效率成为核心竞争力

以前比的是谁能做,现在比的是谁用更少的 token 做到。这对 Agent 工程化影响深远——同样的 token 预算,5.5 能执行的 Agent 步骤数接近 5.4 的两倍。Token 效率不只是成本问题,而是能力边界问题:效率更高的模型在相同约束下能完成更复杂的任务。

洞察三:发布节奏本身就是竞争武器

距 5.4 仅 6 周就发布完全重训的 5.5,这种节奏在历史上前所未有。OpenAI 不是在发布模型,而是在持续施压——让竞争对手永远在追赶上一个版本。DeepSeek V4 同日发布更像是一种宣示——在开源+国产算力路线上,追赶速度超预期。2026 下半年的模型竞争,会比上半年更激烈。


相关阅读

  • OpenAI 官方:Introducing GPT-5.5 | https://openai.com/index/introducing-gpt-5-5/
  • NVIDIA 合作:OpenAI GPT-5.5 Powers Codex on NVIDIA Infrastructure | https://nvidianews.nvidia.com/news/latest
  • 编程对比:GPT-5.5 vs Claude Opus 4.7 | https://www.mindstudio.ai/blog/gpt-55-vs-claude-opus-47-coding-comparison/
  • DeepSeek V4 同日发布:https://finance.sina.com.cn/stock/t/2026-04-24/doc-inhvqrvy4391842.shtml

逍遥云初 | 2026.04.26