2026 年 5 月 12 日,全球权威 AI 评测机构 Artificial Analysis 发布全新基准——Coding Agent Index,首次从「模型 + Agent Harness 组合」的维度评测编程 Agent 的真实工程能力。智谱 GLM-5.1 在 Claude Code 中运行,拿下全球开源 SOTA。
这不仅是一次评测更新,而是评测范式本身的结构性迁移:从测「模型会不会写代码」到测「Agent 能不能在真实环境里闭环完成任务」。
📌 核心问题:为什么需要新的评测范式?
传统编程评测(HumanEval、SWE-Bench、MBPP)测的是「代码生成准确率」——给一个问题描述,模型输出一段代码,看能否通过测试用例。这个范式在 2023-2025 年推动了大模型编码能力的快速进步,但它有一个根本缺陷:
Artificial Analysis 在官方推文中点明了这一洞察:「当开发者使用 AI 编程时,他们不仅在选择模型,也在将其与特定的 Agent harness 搭配使用。只有对这一组合进行基准测试,才能真正理解并比较不同模型的真实性能。」
换句话说,模型是引擎,Harness 是整车的调校。单独测引擎马力无法告诉你这辆车在赛道上的表现。
🧠 评测架构:三维度 358 道题
Coding Agent Index 由三个子基准组成,覆盖编程 Agent 的三大核心能力维度:
1. SWE-Bench-Pro-Hard-AA(代码生成)
- 题量:150 道真实软件工程任务
- 评测方式:Agent 在真实代码仓库中修改代码,提交 patch,由测试套件判定 pass/fail
- 测什么:理解需求 → 定位代码 → 生成修改 → 通过测试的完整闭环
2. Terminal-Bench v2(终端操作)
- 题量:84 道终端任务(原 89 道,排除 5 道环境兼容性问题)
- 评测方式:Agent 在终端环境中执行命令完成任务,由测试套件判定
- 测什么:命令行操作、环境配置、依赖管理、脚本执行等「非写代码」的工程能力
3. SWE-Atlas-QnA(技术问答)
- 题量:124 道仓库级技术问题
- 评测方式:Agent 回答关于代码库的技术问题,由评分标准(rubric)打分,支持部分得分
- 测什么:代码理解、架构分析、技术决策推理
🔥 关键数据与排名
开源模型排名
GLM-5.1(智谱,744B MoE,MIT 协议)在 Claude Code 中运行,取得开源模型第一。这意味着:
- 开源模型在 Agent 场景的追赶速度比预期快
- GLM-5.1 的 Intelligence Index 得分 51,远高于同类模型平均分 30
- MoE 架构(744B 总参数,激活参数远少于 dense 模型)在 Agent 场景展现出优秀的性价比
闭源模型格局
闭源领域,Claude Opus 4.7 仍然是 Agent 场景的标杆。Artificial Analysis 专门发布了「Harness Comparison」维度,对比同一模型(Claude Opus 4.7)在不同 Agent Harness 下的表现差异——这直接验证了 Harness Engineering 的核心主张:Harness 的设计对最终效果的影响不亚于模型本身。
效率维度
除了任务完成率,Coding Agent Index 同时追踪三个效率指标:
- API 成本:每个任务的平均 Token API 花费(基于 provider 定价,非消费者订阅价)
- Token 用量:输入/输出/缓存/推理 Token 的详细拆分
- 执行时间:每个任务的平均 wall-clock 运行时间
🔑 关键洞察
洞察一:评测范式从「模型能力」向「系统能力」迁移
这是 Harness Engineering 理念在评测领域的首次大规模落地。传统 benchmark 问「这个模型有多强?」,Coding Agent Index 问「这个模型 + 这个 Harness 的组合在真实场景中有多强?」。这不是技术细节的差异,而是评测哲学的根本转变。
类比汽车行业:你不会只看发动机排量来判断一辆车的性能,你会看 0-100 加速、赛道圈速、油耗——这些都是「整车系统」的指标。Coding Agent Index 就是 AI 编程领域的「赛道圈速」。
洞察二:Harness 的重要性被量化
Artificial Analysis 的 Harness Comparison 维度首次量化了一个长期被忽视的事实:同一个模型,换一个 Harness,表现可以天差地别。这直接呼应了 Harness Engineering 的核心主张——「The model is one input. The system is the product.」
对开发者的实际意义:选 Claude Code 还是 Cursor 还是 Copilot,不只是选工具,是在选一个「模型 × Harness」的组合。这个组合的整体表现才是你真正关心的。
洞察三:开源模型的 Agent 追赶速度超预期
GLM-5.1 在 Claude Code 中跑出开源第一,说明一个重要趋势:开源模型在 Agent 场景的差距正在快速缩小。744B MoE 架构意味着激活参数量远小于 dense 模型,成本效率更优。
这对企业部署的启示:不一定需要最贵的闭源模型。选一个合适的开源模型 + 优化好的 Harness,可能达到 90% 的效果,但成本降一个数量级。
洞察四:从 pass@1 到 task completion rate 的转变
传统评测只关心「能不能生成正确的代码」,Coding Agent Index 关心的是「能不能闭环完成任务」。这包括:环境理解、工具使用、多步规划、错误恢复等非编码能力。
这些能力在传统 benchmark 中完全无法测量,但在真实工程场景中决定了 Agent 是否可用。Terminal-Bench v2 的加入尤其重要——终端操作是 Agent 与真实环境交互的核心界面。
🚀 引发思考
对评测体系的影响
HumanEval/SWE-Bench 正在被淘汰,Agent-native 评测体系崛起。这个趋势不可逆。未来 12 个月内,我们很可能看到:
- 所有主流模型厂商开始用 Agent-native 指标作为主要发布指标
- 「模型能力」和「Agent 能力」成为两个独立的评估维度
- Harness 层面的优化成为新的竞争焦点
对 AI 编程工具市场的影响
当评测从「模型」扩展到「模型 + Harness」,竞争格局会随之改变。Cursor、Windsurf、Copilot 等工具不再只是「接入了哪个模型」的问题,而是「我的 Harness 设计让模型发挥了多少实力」的问题。这正是 Harness Engineering 的核心战场。
对开源生态的影响
GLM-5.1 的开源 SOTA 表明,开源模型 + 商业/开源 Harness 的组合正在成为闭源方案的有力替代。随着 MoE 架构的普及和推理成本的持续下降,这个趋势会加速。
📎 相关阅读
- Artificial Analysis Coding Agent Index 官方页面:https://artificialanalysis.ai/agents/coding-agents
- 评测方法论:https://artificialanalysis.ai/methodology/coding-agents-benchmarking
- 智谱 GLM-5.1 模型分析:https://artificialanalysis.ai/models/glm-5-1
- Artificial Analysis 官方推文:https://x.com/ArtificialAnlys
逍遥云初 | 2026.05.18






