📌 核心问题
2026 年 4 月 23 日,OpenAI 正式发布 GPT-5.5,这是继 GPT-5.4 之后的又一次重大模型升级。Sam Altman 称其为「从可用到全场景实用」的里程碑。GPT-5.5 不是简单的版本迭代,而是 OpenAI 在 Agentic AI 方向上的关键落子——它在编码、计算机操作、知识工作和早期科学研究四个领域实现了显著跃升。
核心命题:当模型智能提升的同时保持延迟不变、token 消耗更少,这意味着什么?AI 正在从「更聪明」走向「更高效地聪明」。
🔥 关键数据
- Terminal-Bench 2.0:82.7%(GPT-5.4 为 75.1%,Claude Opus 4.7 为 69.4%)
- SWE-Bench Pro:58.6%(真实 GitHub issue 一次性解决率)
- Expert-SWE(内部 20 小时级编码任务):73.1%(GPT-5.4 为 68.5%)
- FrontierMath Tier 4:35.4%(GPT-5.4 为 27.1%,Claude Opus 4.7 为 22.9%)
- OSWorld-Verified(计算机操作):78.7%(GPT-5.4 为 75.0%)
- BrowseComp:84.4%(GPT-5.4 为 82.7%,GPT-5.5 Pro 达 90.1%)
- CyberGym(网络安全):81.8%(GPT-5.4 为 79.0%)
关键对比:GPT-5.5 在 Artificial Analysis Coding Index 上以竞品一半的成本达到 SOTA 智能水平。
🧠 技术架构与设计
- Agentic 编码能力大幅提升:在 Codex 中可处理从实现、重构到调试、测试、验证的全流程工程任务
- 跨上下文推理:能理解大型系统的结构,判断故障根因、修复位置以及对周围代码的影响
- 延迟持平:GPT-5.5 的 per-token 延迟与 GPT-5.4 一致,打破了「更大模型 = 更慢」的惯例
- Token 效率:完成相同 Codex 任务所需 token 显著减少
- 安全框架:配合最强安全套件发布,经过内外部红队测试,针对网络安全和生物学能力进行专项评估
- 200 个可信早期访问合作伙伴参与真实用例反馈
🔑 关键洞察
1. Agentic Coding 的质变时刻
GPT-5.5 在 Terminal-Bench 2.0 上的 82.7% 不只是数字提升——这个基准测试的是复杂的命令行工作流,需要规划、迭代和工具协调。这意味着模型已经能独立完成「从需求理解到代码交付」的完整链路,而不是停留在「生成代码片段」的阶段。
Every 创始人 Dan Shipper 的评价尤为精准:「这是第一个具有严肃概念清晰度的编码模型。」他让 GPT-5.5 重写了他最好的工程师花数天才解决的系统问题——GPT-5.4 做不到,GPT-5.5 做到了。
2. 「效率-智能」解耦的范式转移
传统认知中,模型越大越慢。GPT-5.5 打破了这个规律——在保持 GPT-5.4 延迟的同时实现了显著智能提升,且 token 消耗更少。这说明 OpenAI 在推理优化上取得了实质性突破,可能涉及推测解码、KV Cache 优化或架构层面的创新。
对行业的启示:未来的模型竞争不仅是「谁更聪明」,而是「谁更高效地聪明」。成本和速度将成为核心竞争力。
3. Codex 从编码工具到 AI 操作系统的跃迁
配合 GPT-5.5 发布的 Codex 更新同样值得关注:后台计算机使用、90+ 插件、记忆功能、定时自动化。Codex 正在从「写代码的工具」进化为「操作计算机的 AI Agent」。OpenAI 内部已有 85% 的员工每周使用 Codex,覆盖软件工程、财务、市场等多个部门。
🚀 引发思考
GPT-5.5 的发布标志着 AI 竞争进入新阶段:不再是单纯的模型能力比拼,而是「模型 + 工具链 + 生态」的系统性竞争。当 OpenAI 同时拥有最强模型和最成熟的 Agent 平台(Codex),其他竞争者面临的差距可能不只是模型本身。
另一个值得关注的信号是 GPT-5.5 Pro 的存在——OpenAI 正在建立「标准版 + Pro 版」的分层模型策略,这可能成为未来 AI 产品定价和能力分级的新范式。
对于开发者而言,GPT-5.5 在 SWE-Bench Pro 上 58.6% 的一次性解决率意味着:AI 编码已经从「辅助」进入「自主执行」阶段。Harness Engineering 的重要性将进一步凸显——如何设计环境、约束和反馈循环,将决定 AI Agent 的实际产出质量。
逍遥云初 | 2026.04.24



