Artificial Analysis Coding Agent Index：评测范式从「模型能力」到「系统能力」的迁移

2026 年 5 月 12 日，全球权威 AI 评测机构 Artificial Analysis 发布全新基准——Coding Agent Index，首次从「模型 + Agent Harness 组合」的维度评测编程 Agent 的真实工程能力。智谱 GLM-5.1 在 Claude Code 中运行，拿下全球开源 SOTA。

这不仅是一次评测更新，而是评测范式本身的结构性迁移：从测「模型会不会写代码」到测「Agent 能不能在真实环境里闭环完成任务」。

📌 核心问题：为什么需要新的评测范式？

传统编程评测（HumanEval、SWE-Bench、MBPP）测的是「代码生成准确率」——给一个问题描述，模型输出一段代码，看能否通过测试用例。这个范式在 2023-2025 年推动了大模型编码能力的快速进步，但它有一个根本缺陷：

现实世界的编程工作不是「写一段代码」，而是「在一个已有项目里，理解上下文、使用工具、执行命令、处理错误、最终闭环完成一个任务」。

Artificial Analysis 在官方推文中点明了这一洞察：「当开发者使用 AI 编程时，他们不仅在选择模型，也在将其与特定的 Agent harness 搭配使用。只有对这一组合进行基准测试，才能真正理解并比较不同模型的真实性能。」

换句话说，模型是引擎，Harness 是整车的调校。单独测引擎马力无法告诉你这辆车在赛道上的表现。

🧠 评测架构：三维度 358 道题

Coding Agent Index 由三个子基准组成，覆盖编程 Agent 的三大核心能力维度：

1. SWE-Bench-Pro-Hard-AA（代码生成）

题量：150 道真实软件工程任务
评测方式：Agent 在真实代码仓库中修改代码，提交 patch，由测试套件判定 pass/fail
测什么：理解需求 → 定位代码 → 生成修改 → 通过测试的完整闭环

2. Terminal-Bench v2（终端操作）

题量：84 道终端任务（原 89 道，排除 5 道环境兼容性问题）
评测方式：Agent 在终端环境中执行命令完成任务，由测试套件判定
测什么：命令行操作、环境配置、依赖管理、脚本执行等「非写代码」的工程能力

3. SWE-Atlas-QnA（技术问答）

题量：124 道仓库级技术问题
评测方式：Agent 回答关于代码库的技术问题，由评分标准（rubric）打分，支持部分得分
测什么：代码理解、架构分析、技术决策推理

总计 358 道评测任务，每个 Agent 变体在每道题上跑 3 次取平均 pass@1。性能和效率指标（成本、Token 用量、执行时间）来自同一批评测数据。

🔥 关键数据与排名

开源模型排名

GLM-5.1（智谱，744B MoE，MIT 协议）在 Claude Code 中运行，取得开源模型第一。这意味着：

开源模型在 Agent 场景的追赶速度比预期快
GLM-5.1 的 Intelligence Index 得分 51，远高于同类模型平均分 30
MoE 架构（744B 总参数，激活参数远少于 dense 模型）在 Agent 场景展现出优秀的性价比

闭源模型格局

闭源领域，Claude Opus 4.7 仍然是 Agent 场景的标杆。Artificial Analysis 专门发布了「Harness Comparison」维度，对比同一模型（Claude Opus 4.7）在不同 Agent Harness 下的表现差异——这直接验证了 Harness Engineering 的核心主张：Harness 的设计对最终效果的影响不亚于模型本身。

效率维度

除了任务完成率，Coding Agent Index 同时追踪三个效率指标：

API 成本：每个任务的平均 Token API 花费（基于 provider 定价，非消费者订阅价）
Token 用量：输入/输出/缓存/推理 Token 的详细拆分
执行时间：每个任务的平均 wall-clock 运行时间

🔑 关键洞察

洞察一：评测范式从「模型能力」向「系统能力」迁移

这是 Harness Engineering 理念在评测领域的首次大规模落地。传统 benchmark 问「这个模型有多强？」，Coding Agent Index 问「这个模型 + 这个 Harness 的组合在真实场景中有多强？」。这不是技术细节的差异，而是评测哲学的根本转变。

类比汽车行业：你不会只看发动机排量来判断一辆车的性能，你会看 0-100 加速、赛道圈速、油耗——这些都是「整车系统」的指标。Coding Agent Index 就是 AI 编程领域的「赛道圈速」。

洞察二：Harness 的重要性被量化

Artificial Analysis 的 Harness Comparison 维度首次量化了一个长期被忽视的事实：同一个模型，换一个 Harness，表现可以天差地别。这直接呼应了 Harness Engineering 的核心主张——「The model is one input. The system is the product.」

对开发者的实际意义：选 Claude Code 还是 Cursor 还是 Copilot，不只是选工具，是在选一个「模型 × Harness」的组合。这个组合的整体表现才是你真正关心的。

洞察三：开源模型的 Agent 追赶速度超预期

GLM-5.1 在 Claude Code 中跑出开源第一，说明一个重要趋势：开源模型在 Agent 场景的差距正在快速缩小。744B MoE 架构意味着激活参数量远小于 dense 模型，成本效率更优。

这对企业部署的启示：不一定需要最贵的闭源模型。选一个合适的开源模型 + 优化好的 Harness，可能达到 90% 的效果，但成本降一个数量级。

洞察四：从 pass@1 到 task completion rate 的转变

传统评测只关心「能不能生成正确的代码」，Coding Agent Index 关心的是「能不能闭环完成任务」。这包括：环境理解、工具使用、多步规划、错误恢复等非编码能力。

这些能力在传统 benchmark 中完全无法测量，但在真实工程场景中决定了 Agent 是否可用。Terminal-Bench v2 的加入尤其重要——终端操作是 Agent 与真实环境交互的核心界面。

🚀 引发思考

对评测体系的影响

HumanEval/SWE-Bench 正在被淘汰，Agent-native 评测体系崛起。这个趋势不可逆。未来 12 个月内，我们很可能看到：

所有主流模型厂商开始用 Agent-native 指标作为主要发布指标
「模型能力」和「Agent 能力」成为两个独立的评估维度
Harness 层面的优化成为新的竞争焦点

对 AI 编程工具市场的影响

当评测从「模型」扩展到「模型 + Harness」，竞争格局会随之改变。Cursor、Windsurf、Copilot 等工具不再只是「接入了哪个模型」的问题，而是「我的 Harness 设计让模型发挥了多少实力」的问题。这正是 Harness Engineering 的核心战场。

对开源生态的影响

GLM-5.1 的开源 SOTA 表明，开源模型 + 商业/开源 Harness 的组合正在成为闭源方案的有力替代。随着 MoE 架构的普及和推理成本的持续下降，这个趋势会加速。

📎 相关阅读

Artificial Analysis Coding Agent Index 官方页面：https://artificialanalysis.ai/agents/coding-agents
评测方法论：https://artificialanalysis.ai/methodology/coding-agents-benchmarking
智谱 GLM-5.1 模型分析：https://artificialanalysis.ai/models/glm-5-1
Artificial Analysis 官方推文：https://x.com/ArtificialAnlys

逍遥云初 | 2026.05.18

Artificial Analysis Coding Agent Index：评测范式从「模型能力」到「系统能力」的迁移

📌 核心问题：为什么需要新的评测范式？

🧠 评测架构：三维度 358 道题

1. SWE-Bench-Pro-Hard-AA（代码生成）

2. Terminal-Bench v2（终端操作）

3. SWE-Atlas-QnA（技术问答）

🔥 关键数据与排名

开源模型排名

闭源模型格局

效率维度

🔑 关键洞察

洞察一：评测范式从「模型能力」向「系统能力」迁移

洞察二：Harness 的重要性被量化

洞察三：开源模型的 Agent 追赶速度超预期

洞察四：从 pass@1 到 task completion rate 的转变

🚀 引发思考

对评测体系的影响

对 AI 编程工具市场的影响

对开源生态的影响

📎 相关阅读

推荐好物

相关文章

Artificial Analysis Coding Agent Index：评测范式从「模型能力」到「系统能力」的迁移

📌 核心问题：为什么需要新的评测范式？

🧠 评测架构：三维度 358 道题

1. SWE-Bench-Pro-Hard-AA（代码生成）

2. Terminal-Bench v2（终端操作）

3. SWE-Atlas-QnA（技术问答）

🔥 关键数据与排名

开源模型排名

闭源模型格局

效率维度

🔑 关键洞察

洞察一：评测范式从「模型能力」向「系统能力」迁移

洞察二：Harness 的重要性被量化

洞察三：开源模型的 Agent 追赶速度超预期

洞察四：从 pass@1 到 task completion rate 的转变

🚀 引发思考

对评测体系的影响

对 AI 编程工具市场的影响

对开源生态的影响

📎 相关阅读

推荐好物

母婴

音视频低代码

游戏服专属特惠

相关文章

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四

2026 年国内 AI 剧漫剧市场规模将达 400 亿元，同比增长 138%