2026 年 5 月 12 日,全球权威 AI 评测机构 Artificial Analysis 发布全新基准——Coding Agent Index,首次从「模型 + Agent Harness 组合」的维度评测编程 Agent 的真实工程能力。智谱 GLM-5.1 在 Claude Code 中运行,拿下全球开源 SOTA。

这不仅是一次评测更新,而是评测范式本身的结构性迁移:从测「模型会不会写代码」到测「Agent 能不能在真实环境里闭环完成任务」。


📌 核心问题:为什么需要新的评测范式?

传统编程评测(HumanEval、SWE-Bench、MBPP)测的是「代码生成准确率」——给一个问题描述,模型输出一段代码,看能否通过测试用例。这个范式在 2023-2025 年推动了大模型编码能力的快速进步,但它有一个根本缺陷:

现实世界的编程工作不是「写一段代码」,而是「在一个已有项目里,理解上下文、使用工具、执行命令、处理错误、最终闭环完成一个任务」。

Artificial Analysis 在官方推文中点明了这一洞察:「当开发者使用 AI 编程时,他们不仅在选择模型,也在将其与特定的 Agent harness 搭配使用。只有对这一组合进行基准测试,才能真正理解并比较不同模型的真实性能。」

换句话说,模型是引擎,Harness 是整车的调校。单独测引擎马力无法告诉你这辆车在赛道上的表现。


🧠 评测架构:三维度 358 道题

Coding Agent Index 由三个子基准组成,覆盖编程 Agent 的三大核心能力维度:

1. SWE-Bench-Pro-Hard-AA(代码生成)

  • 题量:150 道真实软件工程任务
  • 评测方式:Agent 在真实代码仓库中修改代码,提交 patch,由测试套件判定 pass/fail
  • 测什么:理解需求 → 定位代码 → 生成修改 → 通过测试的完整闭环

2. Terminal-Bench v2(终端操作)

  • 题量:84 道终端任务(原 89 道,排除 5 道环境兼容性问题)
  • 评测方式:Agent 在终端环境中执行命令完成任务,由测试套件判定
  • 测什么:命令行操作、环境配置、依赖管理、脚本执行等「非写代码」的工程能力

3. SWE-Atlas-QnA(技术问答)

  • 题量:124 道仓库级技术问题
  • 评测方式:Agent 回答关于代码库的技术问题,由评分标准(rubric)打分,支持部分得分
  • 测什么:代码理解、架构分析、技术决策推理
总计 358 道评测任务,每个 Agent 变体在每道题上跑 3 次取平均 pass@1。性能和效率指标(成本、Token 用量、执行时间)来自同一批评测数据。

🔥 关键数据与排名

开源模型排名

GLM-5.1(智谱,744B MoE,MIT 协议)在 Claude Code 中运行,取得开源模型第一。这意味着:

  • 开源模型在 Agent 场景的追赶速度比预期快
  • GLM-5.1 的 Intelligence Index 得分 51,远高于同类模型平均分 30
  • MoE 架构(744B 总参数,激活参数远少于 dense 模型)在 Agent 场景展现出优秀的性价比

闭源模型格局

闭源领域,Claude Opus 4.7 仍然是 Agent 场景的标杆。Artificial Analysis 专门发布了「Harness Comparison」维度,对比同一模型(Claude Opus 4.7)在不同 Agent Harness 下的表现差异——这直接验证了 Harness Engineering 的核心主张:Harness 的设计对最终效果的影响不亚于模型本身。

效率维度

除了任务完成率,Coding Agent Index 同时追踪三个效率指标:

  • API 成本:每个任务的平均 Token API 花费(基于 provider 定价,非消费者订阅价)
  • Token 用量:输入/输出/缓存/推理 Token 的详细拆分
  • 执行时间:每个任务的平均 wall-clock 运行时间

🔑 关键洞察

洞察一:评测范式从「模型能力」向「系统能力」迁移

这是 Harness Engineering 理念在评测领域的首次大规模落地。传统 benchmark 问「这个模型有多强?」,Coding Agent Index 问「这个模型 + 这个 Harness 的组合在真实场景中有多强?」。这不是技术细节的差异,而是评测哲学的根本转变。

类比汽车行业:你不会只看发动机排量来判断一辆车的性能,你会看 0-100 加速、赛道圈速、油耗——这些都是「整车系统」的指标。Coding Agent Index 就是 AI 编程领域的「赛道圈速」。

洞察二:Harness 的重要性被量化

Artificial Analysis 的 Harness Comparison 维度首次量化了一个长期被忽视的事实:同一个模型,换一个 Harness,表现可以天差地别。这直接呼应了 Harness Engineering 的核心主张——「The model is one input. The system is the product.」

对开发者的实际意义:选 Claude Code 还是 Cursor 还是 Copilot,不只是选工具,是在选一个「模型 × Harness」的组合。这个组合的整体表现才是你真正关心的。

洞察三:开源模型的 Agent 追赶速度超预期

GLM-5.1 在 Claude Code 中跑出开源第一,说明一个重要趋势:开源模型在 Agent 场景的差距正在快速缩小。744B MoE 架构意味着激活参数量远小于 dense 模型,成本效率更优。

这对企业部署的启示:不一定需要最贵的闭源模型。选一个合适的开源模型 + 优化好的 Harness,可能达到 90% 的效果,但成本降一个数量级。

洞察四:从 pass@1 到 task completion rate 的转变

传统评测只关心「能不能生成正确的代码」,Coding Agent Index 关心的是「能不能闭环完成任务」。这包括:环境理解、工具使用、多步规划、错误恢复等非编码能力。

这些能力在传统 benchmark 中完全无法测量,但在真实工程场景中决定了 Agent 是否可用。Terminal-Bench v2 的加入尤其重要——终端操作是 Agent 与真实环境交互的核心界面。


🚀 引发思考

对评测体系的影响

HumanEval/SWE-Bench 正在被淘汰,Agent-native 评测体系崛起。这个趋势不可逆。未来 12 个月内,我们很可能看到:

  • 所有主流模型厂商开始用 Agent-native 指标作为主要发布指标
  • 「模型能力」和「Agent 能力」成为两个独立的评估维度
  • Harness 层面的优化成为新的竞争焦点

对 AI 编程工具市场的影响

当评测从「模型」扩展到「模型 + Harness」,竞争格局会随之改变。Cursor、Windsurf、Copilot 等工具不再只是「接入了哪个模型」的问题,而是「我的 Harness 设计让模型发挥了多少实力」的问题。这正是 Harness Engineering 的核心战场。

对开源生态的影响

GLM-5.1 的开源 SOTA 表明,开源模型 + 商业/开源 Harness 的组合正在成为闭源方案的有力替代。随着 MoE 架构的普及和推理成本的持续下降,这个趋势会加速。


📎 相关阅读

  • Artificial Analysis Coding Agent Index 官方页面:https://artificialanalysis.ai/agents/coding-agents
  • 评测方法论:https://artificialanalysis.ai/methodology/coding-agents-benchmarking
  • 智谱 GLM-5.1 模型分析:https://artificialanalysis.ai/models/glm-5-1
  • Artificial Analysis 官方推文:https://x.com/ArtificialAnlys

逍遥云初 | 2026.05.18