GPT-5.5 深度拆解：首个完全重训模型的 Agent 野心

链接：https://openai.com/index/introducing-gpt-5-5/

团队：OpenAI | 发布日期：2026 年 4 月 24 日 | 代号 Spud

核心定位

OpenAI 自 GPT-4.5 以来首个完全重训模型，非蒸馏/微调，距 GPT-5.4 仅 6 周。官方定义：迄今为止最智能、最直观的模型。

关键转折点：Codex 独立产品线正式并入主模型。GPT-5.3 时代还有单独的 Codex 模型，从 5.4 开始统一，5.5 彻底合流——编程能力不再是附属模块，而是模型的核心能力之一。

三大核心方向

1. Agentic Coding——主战场

这是 GPT-5.5 投入最重、提升最显著的方向。Terminal-Bench 2.0 测试复杂命令行工作流——需要规划、迭代、工具协调，直接对应真实开发场景。GPT-5.5 达到 82.7%，GPT-5.4 为 75.1%，Claude Opus 4.7 为 69.4%，Gemini 3.1 Pro 为 68.5%。

Expert-SWE 是 OpenAI 内部评测，任务中位数需人类工程师 20 小时完成。GPT-5.5 达到 73.1%，GPT-5.4 为 68.5%。在需要长时间自主推理的长任务上，进步幅度显著。

SWE-Bench Pro 评估真实 GitHub Issue 修复，GPT-5.5 达到 58.6%，单次通过解决更多端到端任务。

早期测试者反馈——比 benchmark 更有价值

Every CEO Dan Shipper：第一个有严肃概念清晰度的编程模型——能让一个坏掉的系统重写到和资深工程师手工决策一致的方案，5.4 做不到，5.5 做到了
MagicPath CEO Pietro Schirano：GPT-5.5 一次 merge 了数百个前端+重构变更的分支到另一个也大幅变动的主分支，约 20 分钟完成
NVIDIA 工程师原话：失去 GPT-5.5 的访问权限，就像被截肢了一样。

2. 计算机操控 + 工具使用

GDPval 测 AI 能否像人一样完成实际工作任务——写文档、做表格、分析数据、操作软件。GPT-5.5 达到 84.9%，GPT-5.4 为 83.0%，Gemini 3.1 Pro 仅 67.3%。差距巨大，说明 GPT-5.5 在知识工作场景的通用能力也拉开了身位。

Toolathlon 工具使用：55.6% vs 5.4 的 54.6% 和 Gemini 的 48.8%。BrowseComp 网页浏览：84.4%，但 Gemini 3.1 Pro 以 85.9% 反超——这是 Gemini 少数领先的评测之一。

3. 科研加速

FrontierMath T1-3 高难度数学推理：51.7%，GPT-5.4 为 47.6%，Opus 4.7 为 43.8%。FrontierMath T4 天花板级：35.4%，对比 5.4 的 27.1% 和 Opus 4.7 的 22.9%，进步幅度 30%+。CyberGym 网络安全：81.8%，Opus 4.7 为 73.1%。

最被低估的信号：Token 效率

这才是对工程侧影响最大的变化。GPT-5.5 完成相同 Codex 任务的 token 消耗显著低于 5.4。第三方对比显示，在相同编程任务上，GPT-5.5 vs Claude Opus 4.7 的输出 token 减少 72%。Artificial Analysis Coding Index 显示同等智能水平下成本仅为竞品的一半。

API 定价：输入 $5/百万 token，输出 $30/百万 token。Token 效率直接决定了 Agent 循环的可行性和可靠性——每一步 Agent 动作都要消耗 token，token 越少意味着同样预算下能执行更多步骤、上下文窗口中能塞入更多历史、长任务的失败概率降低。

对 Harness Engineering 的启示：OpenAI 把用更少 token 做更多事作为核心卖点，这和 Harness Engineering 的理念完全一致——好的环境设计让模型更高效地工作，而不是单纯靠模型能力硬扛。

同日对手：DeepSeek V4

4/24 同日，DeepSeek V4 预览版上线并开源。1.6 万亿参数，百万 token 上下文标配，百万 token 下每 token 算力消耗远低于 V3.2。Pro 版 API 价格：输入 ¥0.25/百万 token，缓存命中，¥3 未命中——2.5 折特惠。适配国产算力生态，华为云首发。

格局：OpenAI 走高智能+合理定价路线，DeepSeek 走极致性价比+开源路线。同日发布不是巧合，是中美 AI 竞争的标志性事件。

产业影响

Codex 生态扩张：GPT-5.5 已上线 GitHub Copilot，NVIDIA 基础设施直接支撑。token 消耗降低意味着 Copilot 定价压力减小，企业采用门槛降低
Agent 框架受益：LangGraph、CrewAI 等多 Agent 框架在 GPT-5.5 上的 token 成本会显著降低，长任务可靠性提升
Claude Code 的压力：Claude Code 2 月 ARR 已达 $2.5B，增速惊人，但 GPT-5.5 在 token 效率上的碾压直接冲击了 Claude 的核心优势场景
模型军备竞赛白热化：6 周一个大版本，Anthropic Mythos 同日发布，Google 投资 Anthropic $400 亿——这不是常规迭代，是冲刺

关键洞察

洞察一：编程能力从特色功能变成了基础能力

Codex 并入主模型意味着 OpenAI 认为编程不再是垂直场景，而是像多语言能力一样是通用模型的标配。这对所有 Coding Agent 创业公司是降维打击。当编程能力变成模型的内置能力，独立的 Coding Agent 产品需要找到新的价值锚点——编排、工作流集成、企业级管控，而不是单纯的代码生成。

洞察二：Token 效率成为核心竞争力

以前比的是谁能做，现在比的是谁用更少的 token 做到。这对 Agent 工程化影响深远——同样的 token 预算，5.5 能执行的 Agent 步骤数接近 5.4 的两倍。Token 效率不只是成本问题，而是能力边界问题：效率更高的模型在相同约束下能完成更复杂的任务。

洞察三：发布节奏本身就是竞争武器

距 5.4 仅 6 周就发布完全重训的 5.5，这种节奏在历史上前所未有。OpenAI 不是在发布模型，而是在持续施压——让竞争对手永远在追赶上一个版本。DeepSeek V4 同日发布更像是一种宣示——在开源+国产算力路线上，追赶速度超预期。2026 下半年的模型竞争，会比上半年更激烈。

GPT-5.5 深度拆解：首个完全重训模型的 Agent 野心