📌 核心问题

2026年3月5日,OpenAI 发布 GPT-5.4——这是继 GPT-5.2 和 GPT-5.3-Codex 之后的新一代前沿模型。如果说 GPT-5.2 定义了推理能力的基线,GPT-5.3-Codex 把编程能力拉到极致,那 GPT-5.4 的野心更大:它要成为第一个真正「能操作电脑」的通用模型。

为什么这件事重要?因为此前的 AI Agent 最大的瓶颈不是「想不出方案」,而是「执行不了」。模型能写出完美的 Playwright 脚本,但无法直接点击浏览器按钮;能分析 Excel 数据,但无法自己打开表格操作。GPT-5.4 的原生计算机操控能力,标志着从「AI 辅助人类」到「AI 自主执行」的关键跨越。

📊 关键数据

  • GDPval: GDPval(知识工作基准):83.0% 匹配或超越行业专家(GPT-5.2 为 70.9%)
  • 桌面操控: OSWorld-Verified(桌面操控):75.0%,超越人类水平 72.4%(GPT-5.2 仅 47.3%)
  • 代码修复: SWE-Bench Pro(代码修复):57.7%(GPT-5.2 为 55.6%)
  • 工具调用: Toolathlon(工具调用):54.6%(GPT-5.2 为 46.3%)
  • 网页浏览: BrowseComp(网页浏览):82.7%(GPT-5.2 为 65.8%)
  • 幻觉控制: 幻觉率降低 33%,全文错误率降低 18%
  • 表格建模: 电子表格建模任务:87.3%(GPT-5.2 仅 68.4%)

🏗️ 技术架构与设计

  • 原生计算机操控:首个内置 computer-use 能力的通用模型,支持截图+键鼠操作,开发者可通过消息自定义行为
  • 百万级上下文:支持 1M tokens 上下文窗口,Agent 可跨长周期规划、执行、验证任务
  • Tool Search:在大型工具/连接器生态中自动发现并选择正确工具,不牺牲推理能力
  • Token 效率优化:相比 GPT-5.2 显著减少推理 token 消耗,速度更快、成本更低
  • 思维前置规划:ChatGPT 中 GPT-5.4 Thinking 可在响应前展示思考计划,用户可中途调整方向

🔑 关键洞察

原生 computer-use 是 Agent 工程的分水岭。此前 Agent 需要通过代码库间接操控环境,现在模型本身就能「看屏幕+点鼠标」。这意味着 Agent 的能力边界从「写代码」扩展到「操作任何软件」——从 Excel 到浏览器到桌面应用,全部打通。

OSWorld 75% 超越人类 72.4% 不是数字游戏。这意味着在标准化的桌面任务中,AI 已经比普通人类更可靠。对于企业级 RPA(流程自动化)来说,这是一个拐点信号。

Tool Search 解决了 Agent 工具爆炸问题。当一个 Agent 可用的工具从几个增长到几百个时,如何高效选择正确工具成为新瓶颈。GPT-5.4 的 Tool Search 机制,本质上是给 Agent 加了一个「工具搜索引擎」,这是工程化落地的关键一环。

幻觉率降低 33% 的实际意义:在企业知识工作中(法律分析、财务建模、医疗文献),一个错误的数字可能造成重大损失。GPT-5.4 的事实性提升,让它从「辅助参考」升级为「可信赖的执行者」。

🤔 引发思考

GPT-5.4 的发布标志着 OpenAI 的策略转向:不再追求单点能力的极致(如纯推理或纯编程),而是把推理、编码、工具使用、计算机操控整合为统一的 Agent 基础设施。这与 Anthropic 的 Claude Code 路线形成了有趣的对比——Claude Code 专注于终端内的编码 Agent,而 GPT-5.4 试图成为「任何软件都能操作」的通用 Agent。

对于开发者而言,最值得关注的不是基准分数,而是 GPT-5.4 的 API 设计:1M 上下文 + 原生 computer-use + Tool Search,这三者组合在一起,意味着构建真正自主的 Agent 的技术门槛正在急剧下降。2026 年下半年,我们可能会看到一波基于 GPT-5.4 的 Agent 应用爆发。

📎 相关阅读

  • GPT-5.4 官方发布页 — https://openai.com/index/introducing-gpt-5-4/
  • GPT-5.3-Codex 发布 — https://openai.com/index/introducing-gpt-5-3-codex/
  • GDPval 基准测试 — https://openai.com/index/gdpval/

逍遥云初 | 2026.05.04