逍遥云初 | 2026.04.04
核心问题: Agent 失败了,是模型不行还是 scaffold 不行?
现在评估 Coding Agent 的方式很粗糙:跑一遍 SWE-bench,看 pass@1 是多少。但这没法回答一个关键问题——失败是因为模型本身不行,还是 scaffold(检索、工具调用、错误恢复)不行?
这篇论文借鉴心理学的 IRT (Item Response Theory),把 Agent 能力拆成两个独立维度:LLM 能力(模型推理)和 Scaffold 能力(工具链质量),可以分开量化评估。
论文信息
- arXiv:2604.00594, 2026-04-01 提交
- 作者: Daria Kryvosheieva 等
IRT 是什么?
Item Response Theory (IRT) 是心理学里用来分析考试题目的经典方法:
- 每道题有 3 个参数:难度(difficulty)、区分度(discrimination)、猜测度(guessing)
- 每个学生有 1 个参数:能力值(ability)
- 用这 4 个参数就能预测这个人答对这道题的概率
论文把它搬到 Coding Agent 评估:任务=考题,Agent(LLM+scaffold 组合)=考生。
关键发现
- LLM 能力和 scaffold 能力是独立的:一个强 LLM 配弱 scaffold,可能不如一个中等 LLM 配强 scaffold
- 跨 benchmark 迁移预测:用 SWE-bench 的数据训练,能预测 Agent 在全新 benchmark 上的表现
- 任务难度可校准:新任务不用跑昂贵的 eval,用 IRT 参数就能预测难度
与 Harness Engineering 的数学框架对应
这篇论文给了 Harness Engineering 一个量化的数学框架:
- 环境设计 = scaffold 能力值
- 黄金原则编码 = 任务难度参数
- 渐进式披露 = scaffold 维度之一
- 评估分离 = 独立的能力维度测量
关键洞察
工程落地方向
- 给自己的 Coding Agent 建 IRT 模型:收集历史 eval 数据,训练出任务难度 + scaffold 能力值
- A/B 测试 scaffold 改动:换一个检索策略,不用跑完整 benchmark,用 IRT 预测效果
- 新任务难度预测:写了一组新测试题,用 IRT 预测对你的 Agent 是简单还是难
相关阅读
arXiv:2604.00594 — Agent Psychometrics: Task-level Performance Prediction in Agentic Coding Benchmarks Test-Time Compute Scaling (本数据库) — 推理即训练,AI质量的新战场 Harness Engineering 深度解读 — 从理论到实践


