📌 核心问题

2026 年 4 月 23 日,OpenAI 发布 GPT-5.5,定位为「迄今最智能、最直觉化的模型」,也是迈向「在计算机上完成工作的新方式」的下一步。这不是一次常规的模型迭代——GPT-5.5 在 agentic coding、计算机操作、知识工作和早期科学研究四大领域实现了显著突破,同时保持了与 GPT-5.4 相当的推理延迟。

GPT-5.5 的核心创新在于:它不再是一个需要逐步引导的工具,而是一个能理解模糊意图、自主规划多步任务、使用工具验证结果、并在歧义中持续推进的 Agent。用户可以给出一个「乱糟糟的、多部分的任务」,信任它去拆解、执行、检查和收尾。这标志着 AI 从「辅助」到「协作」的范式转变。

更关键的是,GPT-5.5 在大幅提升智能水平的同时,token 效率反而更高——完成相同的 Codex 任务消耗的 token 更少。这意味着更强的能力 + 更低的成本,打破了「更大模型必然更慢更贵」的传统认知。


📊 关键数据

以下为 GPT-5.5 在核心基准测试中的表现(与前代及竞品对比):

  • Terminal-Bench 2.0(复杂命令行工作流):GPT-5.5 达到 82.7%,GPT-5.4 为 75.1%,Claude Opus 4.7 为 69.4%,Gemini 3.1 Pro 为 68.5%
  • SWE-Bench Pro(真实 GitHub issue 修复):GPT-5.5 达到 58.6%,单次通过解决更多端到端任务
  • Expert-SWE(内部前沿评估,中位人工完成时间 20 小时的长周期编码任务):GPT-5.5 显著超越 GPT-5.4
  • OSWorld-Verified(真实计算机环境操作):GPT-5.5 达到 78.7%,Claude Opus 4.7 为 78.0%
  • FrontierMath Tier 1-3(前沿数学推理):GPT-5.5 为 51.7%,Claude Opus 4.7 为 43.8%,Gemini 3.1 Pro 为 36.9%
  • FrontierMath Tier 4(最高难度数学):GPT-5.5 为 35.4%,较 GPT-5.4 的 27.1% 大幅提升
  • BrowseComp(网页理解与推理):GPT-5.5 达到 84.4%,GPT-5.5 Pro 达到 90.1%
  • CyberGym(网络安全推理):GPT-5.5 达到 81.8%,Claude Opus 4.7 为 73.1%

在 Artificial Analysis 的 Coding Index 上,GPT-5.5 以竞品前沿编码模型一半的成本达到了 SOTA 智能水平。


🏗️ 技术架构与设计

  • Agentic 循环设计:GPT-5.5 内建规划-执行-验证循环,能自主使用工具、检查输出、在遇到歧义时继续推进而非停止
  • Token 效率优化:相同任务消耗更少 token、更少重试次数,在提升智能的同时降低了推理成本
  • 跨工具协调能力:支持在多个工具间无缝切换(代码编辑、终端操作、浏览器使用、文档生成),单次任务内完成全链路
  • 大系统上下文保持:在大型代码库中保持上下文连贯性,理解系统整体架构而非孤立片段
  • GPT-5.5 Pro 变体:面向 Pro/Business/Enterprise 用户的高算力版本,在 BrowseComp 达到 90.1%,FrontierMath Tier 4 达到 39.6%

🔑 关键洞察

1. 从「工具」到「同事」的范式跃迁

GPT-5.5 最重要的突破不是某个单项指标,而是它展现出的「概念清晰度」。Every CEO Dan Shipper 的评价一针见血:「这是我用过的第一个具有真正概念清晰度的编码模型。」当工程师花几天调试一个上线后的问题,最终请出最优秀的工程师重写了部分系统后,用 GPT-5.5 回溯同样的故障状态,它能产出与工程师相同质量的重写方案——而 GPT-5.4 做不到。这不是更聪明的自动补全,而是真正理解系统设计意图的能力。

2. 「更少 token,更强能力」打破规模定律的传统叙事

传统观点认为更强的模型 = 更多参数 = 更多计算 = 更高成本。GPT-5.5 用实际数据打破了这个等式:在 Terminal-Bench 2.0、SWE-Bench Pro、Expert-SWE 三个评估中,GPT-5.5 均在使用更少 token 的情况下取得了更高分数。这意味着 agentic coding 的经济可行性大幅提升——当 AI Agent 需要多轮迭代修复 bug 时,每轮的成本和延迟都在下降,使得长时间运行的复杂任务变得实际可用。

3. 科学研究:AI 从「回答问题」到「推进发现」

GPT-5.5 在数学领域帮助发现了一个关于 Ramsey 数的新证明(组合数学的核心对象之一),该证明后来在 Lean 中得到验证。在基因组学领域,一位免疫学教授用 GPT-5.5 Pro 分析了 62 个样本、近 28,000 个基因的表达数据集,生成的研究报告其深度和洞察力相当于团队数月的工作。这不再是「AI 辅助研究」,而是 AI 作为真正的 co-scientist 参与发现过程。

4. OpenAI 内部已在全面 Agent 化

超过 85% 的 OpenAI 员工每周使用 Codex,覆盖软件工程、财务、市场、数据科学等全部职能。财务团队用 GPT-5.5 审核了 24,771 份 K-1 税务表格(71,637 页),比上一年提前两周完成。市场团队一位员工自动化了周报生成,每周节省 5-10 小时。当一个 AI 公司自己用自家产品的方式从「展示性使用」变为「不可或缺的基础设施」时,说明产品确实跨过了实用性的门槛。

🤔 引发思考

GPT-5.5 的发布标志着 AI 编码助手的竞争进入了新阶段。不再是比谁在 SWE-bench 上高几个百分点,而是比谁能让 Agent 在真实工作流中持续运行更长时间、处理更模糊的任务、使用更多工具。Terminal-Bench 2.0 和 Expert-SWE 这类长周期评估正在取代短任务基准,成为衡量 AI 真正工程能力的标尺。

另一个值得关注的信号是 GPT-5.5 在科学发现中的表现。从 Ramsey 数证明到基因组学分析,AI 正在从「工具」进化为「研究伙伴」。对于技术从业者而言,这意味着:与其等待 AGI,不如现在就开始思考如何将 AI Agent 深度嵌入自己的工作流——不是替代你的判断力,而是放大你的探索半径。GPT-5.5 Pro 的一位用户说得最好:「失去 GPT-5.5 的感觉就像被截肢了一样。」


📚 相关阅读

OpenAI 官方公告:https://openai.com/index/introducing-gpt-5-5/

GPT-5.5 System Card:https://openai.com/index/gpt-5-5-system-card/

Artificial Analysis Intelligence Index:https://artificialanalysis.ai/methodology/intelligence-benchmarking

GeneBench Benchmark:https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/oai_genebench_benchmark.pdf


*逍遥云初 | 2026.05.07*