📌 核心问题
2026 年 4 月 23 日,OpenAI 发布 GPT-5.5,定位为「迄今最智能、最直觉化的模型」,也是迈向「在计算机上完成工作的新方式」的下一步。这不是一次常规的模型迭代——GPT-5.5 在 agentic coding、计算机操作、知识工作和早期科学研究四大领域实现了显著突破,同时保持了与 GPT-5.4 相当的推理延迟。
GPT-5.5 的核心创新在于:它不再是一个需要逐步引导的工具,而是一个能理解模糊意图、自主规划多步任务、使用工具验证结果、并在歧义中持续推进的 Agent。用户可以给出一个「乱糟糟的、多部分的任务」,信任它去拆解、执行、检查和收尾。这标志着 AI 从「辅助」到「协作」的范式转变。
更关键的是,GPT-5.5 在大幅提升智能水平的同时,token 效率反而更高——完成相同的 Codex 任务消耗的 token 更少。这意味着更强的能力 + 更低的成本,打破了「更大模型必然更慢更贵」的传统认知。
📊 关键数据
以下为 GPT-5.5 在核心基准测试中的表现(与前代及竞品对比):
- Terminal-Bench 2.0(复杂命令行工作流):GPT-5.5 达到 82.7%,GPT-5.4 为 75.1%,Claude Opus 4.7 为 69.4%,Gemini 3.1 Pro 为 68.5%
- SWE-Bench Pro(真实 GitHub issue 修复):GPT-5.5 达到 58.6%,单次通过解决更多端到端任务
- Expert-SWE(内部前沿评估,中位人工完成时间 20 小时的长周期编码任务):GPT-5.5 显著超越 GPT-5.4
- OSWorld-Verified(真实计算机环境操作):GPT-5.5 达到 78.7%,Claude Opus 4.7 为 78.0%
- FrontierMath Tier 1-3(前沿数学推理):GPT-5.5 为 51.7%,Claude Opus 4.7 为 43.8%,Gemini 3.1 Pro 为 36.9%
- FrontierMath Tier 4(最高难度数学):GPT-5.5 为 35.4%,较 GPT-5.4 的 27.1% 大幅提升
- BrowseComp(网页理解与推理):GPT-5.5 达到 84.4%,GPT-5.5 Pro 达到 90.1%
- CyberGym(网络安全推理):GPT-5.5 达到 81.8%,Claude Opus 4.7 为 73.1%
在 Artificial Analysis 的 Coding Index 上,GPT-5.5 以竞品前沿编码模型一半的成本达到了 SOTA 智能水平。
🏗️ 技术架构与设计
- Agentic 循环设计:GPT-5.5 内建规划-执行-验证循环,能自主使用工具、检查输出、在遇到歧义时继续推进而非停止
- Token 效率优化:相同任务消耗更少 token、更少重试次数,在提升智能的同时降低了推理成本
- 跨工具协调能力:支持在多个工具间无缝切换(代码编辑、终端操作、浏览器使用、文档生成),单次任务内完成全链路
- 大系统上下文保持:在大型代码库中保持上下文连贯性,理解系统整体架构而非孤立片段
- GPT-5.5 Pro 变体:面向 Pro/Business/Enterprise 用户的高算力版本,在 BrowseComp 达到 90.1%,FrontierMath Tier 4 达到 39.6%
🔑 关键洞察
1. 从「工具」到「同事」的范式跃迁
2. 「更少 token,更强能力」打破规模定律的传统叙事
3. 科学研究:AI 从「回答问题」到「推进发现」
4. OpenAI 内部已在全面 Agent 化
🤔 引发思考
GPT-5.5 的发布标志着 AI 编码助手的竞争进入了新阶段。不再是比谁在 SWE-bench 上高几个百分点,而是比谁能让 Agent 在真实工作流中持续运行更长时间、处理更模糊的任务、使用更多工具。Terminal-Bench 2.0 和 Expert-SWE 这类长周期评估正在取代短任务基准,成为衡量 AI 真正工程能力的标尺。
另一个值得关注的信号是 GPT-5.5 在科学发现中的表现。从 Ramsey 数证明到基因组学分析,AI 正在从「工具」进化为「研究伙伴」。对于技术从业者而言,这意味着:与其等待 AGI,不如现在就开始思考如何将 AI Agent 深度嵌入自己的工作流——不是替代你的判断力,而是放大你的探索半径。GPT-5.5 Pro 的一位用户说得最好:「失去 GPT-5.5 的感觉就像被截肢了一样。」
📚 相关阅读
OpenAI 官方公告:https://openai.com/index/introducing-gpt-5-5/
GPT-5.5 System Card:https://openai.com/index/gpt-5-5-system-card/
Artificial Analysis Intelligence Index:https://artificialanalysis.ai/methodology/intelligence-benchmarking
GeneBench Benchmark:https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/oai_genebench_benchmark.pdf
*逍遥云初 | 2026.05.07*






