📌 核心问题:为什么需要一个统一的 Coding Agent 基准?

2026 年,AI Coding Agent 已经从「辅助补全」进化到「端到端自主编程」。Claude Code、Cursor CLI、Codex、Copilot 等 Agent Harness 层出不穷,GPT-5.5、Claude Opus 4.7、GLM-5.1 等模型你追我赶。但一个根本问题始终悬而未决:如何公平、全面地衡量一个 Coding Agent 的真实能力?

传统的 SWE-Bench 只测代码生成,忽略了终端操作、仓库理解等维度。不同团队各自发布基准,结果不可比。Artificial Analysis 在 2026 年 5 月 12 日发布了 Coding Agent Index,试图终结这一混乱局面——用一个复合指数,覆盖代码生成、终端操作、技术问答三大维度,给出统一的性能排名。

这个基准的意义不仅在于排名本身,更在于它首次将 Agent Harness(调度框架)和底层模型的贡献解耦,让我们看清:到底是模型更强,还是框架更聪明?


🔬 关键数据:谁是 2026 年 5 月的 Coding Agent 之王?

Composite Index 排名(pass@1 平均分,满分 100):

  • 🥇 Claude Opus 4.7 + Cursor CLI → 61 分(榜首)
  • 🥈 GPT-5.5 + Codex → 58 分
  • 🥉 Claude Opus 4.7 + Claude Code → 60 分
  • 开源最强:GLM-5.1 + Claude Code → 开源模型第一

注意:同一个模型在不同 Harness 下表现差异巨大。Opus 4.7 在 Cursor CLI 下得 61,在 Claude Code 下得 60——仅 1 分之差,但 GPT-5.5 在 Codex 下的 58 分说明 Harness 的调度策略对最终结果有决定性影响。

三个子基准覆盖范围:

  • SWE-Bench-Pro-Hard-AA:150 道代码生成题,测试实际工程能力
  • Terminal-Bench v2:84 道终端操作题,测试 Agent 的 Shell 交互能力
  • SWE-Atlas-QnA:124 道技术问答,测试仓库级理解能力

每个基准跑 3 轮取 pass@1 平均值,同时统计 token 消耗、API 成本、执行时间等效率指标。


🏗️ 技术架构与设计

  • 三维评估体系:代码生成 + 终端操作 + 技术问答,避免单一维度偏差。传统 SWE-Bench 只覆盖代码生成,Terminal-Bench 和 SWE-Atlas-QnA 补齐了另外两个关键维度
  • Harness 解耦设计:同一个模型在不同 Harness 下分别测试(如 Opus 4.7 × Cursor CLI vs Opus 4.7 × Claude Code),量化 Harness 对性能的贡献
  • 效率指标同步:不仅看 pass@1,还统计 token 用量、API 成本、执行时间。一个 Agent 能解题但烧钱 10 倍,也算不上好
  • pass@1 + 部分得分:二元通过(测试套件)和部分得分(rubric 评分)并存,更精细地反映能力差异
  • 默认推理设置:使用各 Agent 的默认配置,反映真实用户体验,而非刻意调优后的理想状态

🧠 关键洞察

🔑 Harness 比模型更重要?

Opus 4.7 在 Cursor CLI 下得 61,在 Claude Code 下得 60。GPT-5.5 在 Codex 下得 58。同一模型在不同 Harness 下的分差可达 3+ 分,这说明 Agent 的调度策略、上下文管理、工具调用方式对最终性能的影响,可能不亚于模型本身的能力。对于开发者来说,选择哪个 Agent 框架,和选择哪个模型一样重要。

🔑 开源模型正在逼近

GLM-5.1 在 Claude Code 框架下成为开源模型第一名。这说明开源模型在纯能力上已经接近闭源模型,差距主要体现在推理优化和生态整合上。随着开源模型持续迭代,闭源模型的护城河正在缩小。

🔑 终端操作是被忽视的关键维度

Terminal-Bench v2 测试的是 Agent 在 Shell 环境下的实际操作能力——安装依赖、运行测试、调试环境。这是真实开发中最耗时的环节,但传统基准几乎不测。Coding Agent Index 将其纳入,揭示了一个重要事实:代码写得好不代表能跑通,Agent 的终端能力同样关键。

🔑 成本效率将成为下一个竞争焦点

基准同时发布了每个 Agent 的 token 消耗和 API 成本。当 Agent 能力趋于接近时,谁更便宜、谁更快将成为用户选择的关键因素。这预示着 2026 年下半年的竞争将从「谁更强」转向「谁更高效」。


🚀 引发思考

Artificial Analysis Coding Agent Index 的发布标志着 AI Coding 评测从「模型基准」时代进入「Agent 系统基准」时代。过去我们比较的是 GPT 和 Claude 谁更聪明,现在比较的是「GPT + Codex」和「Opus + Cursor」谁的组合更强。这从根本上改变了竞争格局——模型厂商需要同时优化模型能力和 Agent 框架,而 Agent 框架厂商则需要深度适配不同模型。

对于企业来说,这个基准提供了一个选型参考:不要只看模型排名,要看「模型 + Harness」的组合表现。同时,成本效率数据让 ROI 计算成为可能——你可以用 61 分的方案花 $X,也可以用 58 分的方案花 $0.5X,取决于你的预算和精度要求。


📎 相关阅读

Artificial Analysis Coding Agent Index 官方页面

Coding Agent Index 测评方法论

SWE-Bench 官方排行榜

*逍遥云初 | 2026.05.13*