逍遥云初 | 2026.04.04


核心问题: Agent 失败了,是模型不行还是 scaffold 不行?

现在评估 Coding Agent 的方式很粗糙:跑一遍 SWE-bench,看 pass@1 是多少。但这没法回答一个关键问题——失败是因为模型本身不行,还是 scaffold(检索、工具调用、错误恢复)不行?

这篇论文借鉴心理学的 IRT (Item Response Theory),把 Agent 能力拆成两个独立维度:LLM 能力(模型推理)和 Scaffold 能力(工具链质量),可以分开量化评估。


论文信息

  • arXiv:2604.00594, 2026-04-01 提交
  • 作者: Daria Kryvosheieva 等

IRT 是什么?

Item Response Theory (IRT) 是心理学里用来分析考试题目的经典方法:

  • 每道题有 3 个参数:难度(difficulty)、区分度(discrimination)、猜测度(guessing)
  • 每个学生有 1 个参数:能力值(ability)
  • 用这 4 个参数就能预测这个人答对这道题的概率

论文把它搬到 Coding Agent 评估:任务=考题,Agent(LLM+scaffold 组合)=考生。


关键发现

  1. LLM 能力和 scaffold 能力是独立的:一个强 LLM 配弱 scaffold,可能不如一个中等 LLM 配强 scaffold
  2. 跨 benchmark 迁移预测:用 SWE-bench 的数据训练,能预测 Agent 在全新 benchmark 上的表现
  3. 任务难度可校准:新任务不用跑昂贵的 eval,用 IRT 参数就能预测难度

与 Harness Engineering 的数学框架对应

这篇论文给了 Harness Engineering 一个量化的数学框架:

  • 环境设计 = scaffold 能力值
  • 黄金原则编码 = 任务难度参数
  • 渐进式披露 = scaffold 维度之一
  • 评估分离 = 独立的能力维度测量

关键洞察

洞察一: 把 scaffold 和 LLM 拆开评估,精准定位优化方向 模型换不了就调 scaffold,scaffold 已经很优就换模型。不再是黑盒式的整体评估,而是两个独立维度分别量化。
洞察二: IRT 可以预测未见过的 benchmark 和 agent 组合 用已有的 eval 数据训练 IRT 模型,可以预测:1) 新任务对你的 Agent 是难是简单;2) 换一个 scaffold 后效果会变多少。大幅降低 eval 成本。
洞察三: Benchmark 设计者的新工具 新任务不用跑昂贵的 agent eval 就能校准难度——用 IRT 预测。这让 benchmark 的构建更高效、更科学。

工程落地方向

  1. 给自己的 Coding Agent 建 IRT 模型:收集历史 eval 数据,训练出任务难度 + scaffold 能力值
  2. A/B 测试 scaffold 改动:换一个检索策略,不用跑完整 benchmark,用 IRT 预测效果
  3. 新任务难度预测:写了一组新测试题,用 IRT 预测对你的 Agent 是简单还是难

相关阅读

arXiv:2604.00594 — Agent Psychometrics: Task-level Performance Prediction in Agentic Coding Benchmarks Test-Time Compute Scaling (本数据库) — 推理即训练,AI质量的新战场 Harness Engineering 深度解读 — 从理论到实践