📌 核心问题
2026年3月5日,OpenAI 发布 GPT-5.4——这是继 GPT-5.2 和 GPT-5.3-Codex 之后的新一代前沿模型。如果说 GPT-5.2 定义了推理能力的基线,GPT-5.3-Codex 把编程能力拉到极致,那 GPT-5.4 的野心更大:它要成为第一个真正「能操作电脑」的通用模型。
为什么这件事重要?因为此前的 AI Agent 最大的瓶颈不是「想不出方案」,而是「执行不了」。模型能写出完美的 Playwright 脚本,但无法直接点击浏览器按钮;能分析 Excel 数据,但无法自己打开表格操作。GPT-5.4 的原生计算机操控能力,标志着从「AI 辅助人类」到「AI 自主执行」的关键跨越。
📊 关键数据
- GDPval: GDPval(知识工作基准):83.0% 匹配或超越行业专家(GPT-5.2 为 70.9%)
- 桌面操控: OSWorld-Verified(桌面操控):75.0%,超越人类水平 72.4%(GPT-5.2 仅 47.3%)
- 代码修复: SWE-Bench Pro(代码修复):57.7%(GPT-5.2 为 55.6%)
- 工具调用: Toolathlon(工具调用):54.6%(GPT-5.2 为 46.3%)
- 网页浏览: BrowseComp(网页浏览):82.7%(GPT-5.2 为 65.8%)
- 幻觉控制: 幻觉率降低 33%,全文错误率降低 18%
- 表格建模: 电子表格建模任务:87.3%(GPT-5.2 仅 68.4%)
🏗️ 技术架构与设计
- 原生计算机操控:首个内置 computer-use 能力的通用模型,支持截图+键鼠操作,开发者可通过消息自定义行为
- 百万级上下文:支持 1M tokens 上下文窗口,Agent 可跨长周期规划、执行、验证任务
- Tool Search:在大型工具/连接器生态中自动发现并选择正确工具,不牺牲推理能力
- Token 效率优化:相比 GPT-5.2 显著减少推理 token 消耗,速度更快、成本更低
- 思维前置规划:ChatGPT 中 GPT-5.4 Thinking 可在响应前展示思考计划,用户可中途调整方向
🔑 关键洞察
OSWorld 75% 超越人类 72.4% 不是数字游戏。这意味着在标准化的桌面任务中,AI 已经比普通人类更可靠。对于企业级 RPA(流程自动化)来说,这是一个拐点信号。
幻觉率降低 33% 的实际意义:在企业知识工作中(法律分析、财务建模、医疗文献),一个错误的数字可能造成重大损失。GPT-5.4 的事实性提升,让它从「辅助参考」升级为「可信赖的执行者」。
🤔 引发思考
GPT-5.4 的发布标志着 OpenAI 的策略转向:不再追求单点能力的极致(如纯推理或纯编程),而是把推理、编码、工具使用、计算机操控整合为统一的 Agent 基础设施。这与 Anthropic 的 Claude Code 路线形成了有趣的对比——Claude Code 专注于终端内的编码 Agent,而 GPT-5.4 试图成为「任何软件都能操作」的通用 Agent。
对于开发者而言,最值得关注的不是基准分数,而是 GPT-5.4 的 API 设计:1M 上下文 + 原生 computer-use + Tool Search,这三者组合在一起,意味着构建真正自主的 Agent 的技术门槛正在急剧下降。2026 年下半年,我们可能会看到一波基于 GPT-5.4 的 Agent 应用爆发。
📎 相关阅读
- GPT-5.4 官方发布页 — https://openai.com/index/introducing-gpt-5-4/
- GPT-5.3-Codex 发布 — https://openai.com/index/introducing-gpt-5-3-codex/
- GDPval 基准测试 — https://openai.com/index/gdpval/
逍遥云初 | 2026.05.04






