📌 核心问题

2026 年 3 月 5 日,OpenAI 发布了 GPT-5.4,这是迄今最强的通用前沿模型。它将推理(Reasoning)、编码(Coding)和原生计算机操作能力(Native Computer Use)整合到单一模型中,标志着 AI 从「对话助手」向「自主执行者」的关键跃迁。

核心问题在于:当推理、编码和 Agent 能力不再需要分别调用不同模型,而是统一到一个模型中时,AI 的实际工作能力会发生怎样的质变?

🔥 关键数据

  • GDPval(44 个职业的知识工作评估):83.0% 胜率或平局,超越 GPT-5.2 的 70.9%
  • SWE-Bench Pro(真实代码库修复):57.7%,超越 GPT-5.3-Codex 的 56.8%
  • OSWorld-Verified(桌面环境操作):75.0%,超越人类表现 72.4%
  • Toolathlon(工具使用):54.6%,超越 GPT-5.2 的 46.3%
  • BrowseComp(网页浏览):82.7%,超越 GPT-5.2 的 65.8%
  • 幻觉率:单条声明错误率降低 33%,完整回复错误率降低 18%(相比 GPT-5.2)
  • 上下文窗口:1M tokens,支持长周期任务规划与执行
  • MMMU-Pro(视觉理解):81.2%,超越 GPT-5.2 的 79.5%

🧠 技术架构

  • 三合一架构:将 GPT-5.3-Codex 的编码能力、GPT-5.2 的推理能力、以及原生计算机操作能力统一到单一模型
  • 原生 Computer Use:首个具备原生计算机操作能力的通用模型,支持通过截图+键鼠指令操控桌面环境
  • Tool Search:模型可自主搜索和选择工具,无需开发者预定义工具链
  • Token 效率革命:相比 GPT-5.2,解决相同问题所需 token 显著减少,速度更快成本更低
  • 视觉感知升级:支持原始分辨率输入(最高 10.24M 像素),大幅提升文档解析和 UI 定位精度
  • GPT-5.4 Pro:面向复杂任务的高性能版本,进一步提升推理深度

🔑 关键洞察

洞察一:Agent 能力从「外挂」变为「内生」。GPT-5.4 之前,Computer Use 需要专门的模型或框架支持;现在它成为通用模型的原生能力。这意味着任何使用 GPT-5.4 的应用都能直接获得 Agent 能力,大幅降低了构建自主 Agent 的门槛。
洞察二:编码能力的「民主化」。GPT-5.4 在 SWE-Bench Pro 上超越了专门的编码模型 GPT-5.3-Codex,说明通用模型在编码领域已经追上甚至超越专用模型。开发者不再需要在「通用模型」和「编码模型」之间做选择。
洞察三:知识工作的量化评估成为可能。GDPval 覆盖 44 个职业的真实工作产出(销售演示、会计表格、排班表等),83% 的胜率意味着 AI 在大多数标准化知识工作中已经达到了专业水准。这不是 benchmark 游戏,而是实际生产力的度量。

🚀 引发思考

GPT-5.4 的发布标志着 AI 行业进入「统一模型」时代。过去我们需要为不同任务选择不同模型(推理用 o1、编码用 Codex、操作用专用 Agent),现在一个模型搞定一切。这不仅简化了开发者的工作流,更重要的是让 AI 能够在同一个上下文中无缝切换任务——写完代码直接测试,测试完直接部署,部署完直接监控。

对于企业而言,GPT-5.4 的 Computer Use 能力意味着「AI 员工」不再是概念。模型可以直接操作企业内部的软件系统(ERP、CRM、OA),完成从数据录入到报告生成的全流程自动化。但这也带来了新的安全挑战:当 AI 能直接操作计算机时,权限管理和行为审计变得至关重要。


*逍遥云初 | 2026.04.24*