📌 核心事件
2026 年 4 月 24 日,OpenAI 正式发布 GPT-5.5 及 GPT-5.5 Pro。这是 OpenAI 迄今最智能的旗舰模型,代号 "Spud",距离上一代 GPT-5.4 发布仅不到两个月。OpenAI 将其定位为 "迈向全新计算机工作方式的下一步"——不再需要精心管理每一步,而是可以交给一个模糊的多步骤任务,让模型自主规划、使用工具、检查工作、穿越歧义并持续推进。
GPT-5.5 在 agentic coding、computer use、知识工作和早期科学研究等领域的进步尤为显著,且在性能大幅提升的同时,保持了与 GPT-5.4 相当的 per-token 延迟。
🔥 关键数据
- Terminal-Bench 2.0(复杂终端工作流):82.7%(SOTA)
- SWE-Bench Pro(真实 GitHub Issue 解决):58.6%(单次通过率新高)
- Expert-SWE(中位人类完成时间 20 小时的长周期编码):73.1%
- GDPval(44 种职业的知识工作产出):84.9%(SOTA)
- OSWorld-Verified(自主操作真实计算机环境):78.7%
- BrowseComp(网页浏览与信息检索):84.4%
- FrontierMath Tier 4(最难数学推理):35.4%
- Tau2-bench Telecom(复杂客服工作流):98.0%(无需 prompt 调优)
- CyberGym(网络安全能力):81.8%
在 Artificial Analysis Coding Index 上,GPT-5.5 以竞品编码模型一半的成本,达到 SOTA 智能水平。
🏗️ 技术架构与设计
- Agentic Coding:能保持跨大型系统的上下文理解、穿越模糊故障、用工具检查假设、并在周围代码库中推进变更。Cursor CEO Michael Truell 评价其 "更聪明、更持久,且工具使用更可靠"。
- Computer Use:结合 Codex 的屏幕理解、点击、输入、导航能力,GPT-5.5 让模型更接近 "真正和你一起使用计算机"。
- 知识工作自动化:在 Codex 中生成文档、表格、幻灯片,处理运营研究、表格建模、将混乱的业务输入转化为计划。OpenAI 内部 85% 员工每周使用 Codex。
- 科学研究加速:在 GeneBench(遗传学多阶段数据分析)和 BixBench(生物信息学)上取得领先成绩。内部版本辅助发现了 Ramsey 数的新证明(后经 Lean 验证)。
- 推理基础设施协同设计:GPT-5.5 与 NVIDIA GB200/GB300 NVL72 系统协同训练和部署,Codex 帮助分析数周生产流量模式并编写负载均衡启发式算法,token 生成速度提升 20%+。
🔑 关键洞察
洞察一:模型自举优化推理基础设施。GPT-5.5 和 Codex 被用来优化服务于自身的推理基础设施——模型帮助改进运行自己的基础设施。这不是第一次出现这种 "自举" 模式,但 GPT-5.5 的案例表明,AI 正在进入一个自我加速改进的阶段。
洞察二:"更快更便宜" 成为新的竞争维度。GPT-5.5 在性能大幅提升的同时,完成相同 Codex 任务使用更少的 token,per-token 延迟与 GPT-5.4 相当。这意味着前沿模型的竞争已经从 "谁更聪明" 扩展到 "谁更高效"——在生产环境中,成本和延迟往往比基准分数更重要。
洞察三:安全与能力的同步升级。OpenAI 为 GPT-5.5 配备了有史以来最强的安全保障,包括更严格的网络安全分类器、生物安全漏洞赏金计划、以及与近 200 个可信早期访问合作伙伴的反馈收集。这反映出前沿实验室对 "能力越强、风险越大" 的清醒认知。
关键洞察:GPT-5.5 的发布标志着 AI 从 "代码补全工具" 向 "全栈工程伙伴" 的范式转变。当一个模型能够在终端工作流、GitHub Issue 解决、知识工作自动化和科学研究中同时达到 SOTA,它不再是一个 "工具",而是一个可以跨领域自主推进的 "Agent"。
🚀 引发思考
GPT-5.5 的发布引发几个值得深思的问题:
- AI 编程的 "最后一公里" 在哪里?当模型能够在单次通过中解决更多端到端任务,瓶颈是否已经转移到了人类对需求的定义和对输出的验证上?
- 模型自举优化的天花板在哪里?当 AI 开始优化运行自己的基础设施,这个正反馈循环的速度和边界是什么?
- 安全与开放的平衡点在哪里?GPT-5.5 配备了更强的安全保障,但 GPT-5.4-Cyber 等变体又在特定领域降低了限制——这种 "分层访问" 模式是否会成为前沿模型的标准部署策略?
- 成本效率成为新的护城河:当多家实验室的前沿模型在基准测试上趋于接近,谁能以更低的成本提供同等智能,谁就占据了生产环境的优势。
📎 相关阅读
- [Introducing GPT-5.5 - OpenAI](https://openai.com/index/introducing-gpt-5-5/)
- [OpenAI GPT-5.5 System Card](https://openai.com/index/gpt-5-5-system-card/)
- [NVIDIA: GPT-5.5 Powers Codex](https://nvidianews.nvidia.com/news/latest)
- [Trusted Access for Cyber Defense - OpenAI](https://openai.com/index/scaling-trusted-access-for-cyber-defense/)
逍遥云初 | 2026.04.26






