📌 核心问题

2026 年 3 月,OpenAI 密集发布 GPT-5.4 系列模型。3 月 5 日发布 GPT-5.4(旗舰),3 月 17 日发布 GPT-5.4-mini 和 nano。这不是常规迭代,而是 OpenAI 在"效率"维度上的全面发力——用更低的成本、更快的速度,逼近甚至超越旗舰模型的表现。


🔬 模型信息

GPT-5.4(2026-03-05)

定位:最强大、最高效的前沿模型。发布渠道:ChatGPT(GPT-5.4 Thinking)、API、Codex。关键能力:原生计算机操控、1M 上下文、工具搜索。

GPT-5.4-mini(2026-03-17)

定位:最强大的小型模型。速度比 GPT-5-mini 快 2x+。定价:$0.75/1M 输入,$4.50/1M 输出。上下文:400K tokens。

GPT-5.4-nano(2026-03-17)

定位:最小、最便宜的 GPT-5.4 变体。定价:$0.20/1M 输入,$1.25/1M 输出。适用:分类、数据提取、排序、简单子 Agent。


🏗️ GPT-5.4 旗舰核心突破

1. 原生计算机操控

GPT-5.4 是 OpenAI 首个具备原生 computer-use 能力的通用模型。OSWorld-Verified:75.0%(超越人类的 72.4%)。WebArena-Verified:67.3%。Online-Mind2Web:92.8%。

2. 专业工作能力

GDPval 测试(44 个职业):GPT-5.4 83.0% 胜率或平手 vs GPT-5.2 70.9%。电子表格建模:GPT-5.4 87.3% vs GPT-5.2 68.4%。

3. 幻觉率大幅下降

单条声明错误概率降低 33%,完整回复包含错误的概率降低 18%。

4. 思考过程可视化

GPT-5.4 Thinking 在 ChatGPT 中提供"思考计划"前置展示,用户可在模型工作过程中调整方向,减少多轮对话。


📊 GPT-5.4-mini 性能对比

SWE-Bench Pro:GPT-5.4 57.7% | mini 54.4% | nano 52.4% | GPT-5 mini 45.7%。Terminal-Bench 2.0:75.1% | 60.0% | 46.3% | 38.2%。GPQA Diamond:93.0% | 88.0% | 82.8% | 81.6%。GPT-5.4-mini 在 SWE-Bench Pro 上仅比旗舰低 3.3 个百分点,但速度快 2 倍以上。


🏗️ Codex 6 的子 Agent 架构

GPT-5.4-mini 在 Codex 中的关键应用是子 Agent 模式:大模型(GPT-5.4)负责规划、协调、最终判断;小模型(GPT-5.4 mini)并行处理搜索代码库、审查大文件等子任务。整体成本降低到纯旗舰的 1/3。


🔑 关键洞察

"小模型"的定义被重新改写:GPT-5.4-mini 的 SWE-Bench Pro 成绩(54.4%)已超过 2024 年的旗舰模型。"小模型"不再意味着"能力妥协"。
子 Agent 是未来的架构范式:未来的 AI 系统不是单一模型,而是"大模型指挥 + 小模型执行"的协作网络。
价格战已经打响:GPT-5.4-nano 的 $0.20/1M 输入 + Gemini Flash-Lite 的 $0.25/1M,"每百万 token 不到 1 元人民币"已成为现实。
计算机操控 = Agent 的终极形态:GPT-5.4 的 computer-use 能力超越人类水平(75% vs 72.4%),"AI 操作电脑完成任务"从概念验证进入实用阶段。

🚀 引发思考

对开发者:子 Agent 架构将成为标准模式;成本优化从"选便宜的模型"升级为"动态分配模型大小";Computer-use 能力将催生全新的自动化工具链。

对行业:"小模型够用"的共识正在形成,将改变整个 AI API 的定价结构。大规模 AI 调用不再是大公司的专利。


📎 相关阅读

  • Introducing GPT-5.4:https://openai.com/index/introducing-gpt-5-4/
  • Introducing GPT-5.4 mini and nano:https://openai.com/index/introducing-gpt-5-4-mini-and-nano/
  • Codex Subagents 文档:https://developers.openai.com/codex/subagents/

逍遥云初 | 2026.04.30