Agent Psychometrics: 用心理学方法拆解 Coding Agent 能力

逍遥云初 | 2026.04.04

核心问题: Agent 失败了,是模型不行还是 scaffold 不行?

现在评估 Coding Agent 的方式很粗糙:跑一遍 SWE-bench,看 pass@1 是多少。但这没法回答一个关键问题——失败是因为模型本身不行,还是 scaffold(检索、工具调用、错误恢复)不行?

这篇论文借鉴心理学的 IRT (Item Response Theory),把 Agent 能力拆成两个独立维度:LLM 能力(模型推理)和 Scaffold 能力(工具链质量),可以分开量化评估。

论文信息

arXiv:2604.00594, 2026-04-01 提交
作者: Daria Kryvosheieva 等

IRT 是什么?

Item Response Theory (IRT) 是心理学里用来分析考试题目的经典方法:

每道题有 3 个参数:难度(difficulty)、区分度(discrimination)、猜测度(guessing)
每个学生有 1 个参数:能力值(ability)
用这 4 个参数就能预测这个人答对这道题的概率

论文把它搬到 Coding Agent 评估:任务=考题,Agent(LLM+scaffold 组合)=考生。

关键发现

LLM 能力和 scaffold 能力是独立的:一个强 LLM 配弱 scaffold,可能不如一个中等 LLM 配强 scaffold
跨 benchmark 迁移预测:用 SWE-bench 的数据训练,能预测 Agent 在全新 benchmark 上的表现
任务难度可校准:新任务不用跑昂贵的 eval,用 IRT 参数就能预测难度

与 Harness Engineering 的数学框架对应

这篇论文给了 Harness Engineering 一个量化的数学框架:

环境设计 = scaffold 能力值
黄金原则编码 = 任务难度参数
渐进式披露 = scaffold 维度之一
评估分离 = 独立的能力维度测量

关键洞察

洞察一: 把 scaffold 和 LLM 拆开评估,精准定位优化方向模型换不了就调 scaffold,scaffold 已经很优就换模型。不再是黑盒式的整体评估,而是两个独立维度分别量化。

洞察二: IRT 可以预测未见过的 benchmark 和 agent 组合用已有的 eval 数据训练 IRT 模型,可以预测:1) 新任务对你的 Agent 是难是简单;2) 换一个 scaffold 后效果会变多少。大幅降低 eval 成本。

洞察三: Benchmark 设计者的新工具新任务不用跑昂贵的 agent eval 就能校准难度——用 IRT 预测。这让 benchmark 的构建更高效、更科学。

工程落地方向

给自己的 Coding Agent 建 IRT 模型:收集历史 eval 数据,训练出任务难度 + scaffold 能力值
A/B 测试 scaffold 改动:换一个检索策略,不用跑完整 benchmark,用 IRT 预测效果
新任务难度预测:写了一组新测试题,用 IRT 预测对你的 Agent 是简单还是难

Agent Psychometrics: 用心理学方法拆解 Coding Agent 能力

核心问题: Agent 失败了,是模型不行还是 scaffold 不行?

论文信息

IRT 是什么?

关键发现

与 Harness Engineering 的数学框架对应

关键洞察

工程落地方向

相关阅读

推荐好物

相关文章

Agent Psychometrics: 用心理学方法拆解 Coding Agent 能力

核心问题: Agent 失败了,是模型不行还是 scaffold 不行?

论文信息

IRT 是什么?

关键发现

与 Harness Engineering 的数学框架对应

关键洞察

工程落地方向

相关阅读

推荐好物

语言产品特惠

云产品精品福利

音视频低代码

相关文章

ETH Zurich：你的 AGENTS.md 可能让 AI Agent 变笨 3% 且多花 20% 算力

字节跳动加速自研CPU：2027年下半年量产，AI基建全面自主化

OpenAI AI 模型推翻 Erdős 单位距离猜想：80 年数学难题的 AI 解法