核心问题
当前Agent评测存在两大缺陷:环境交互开销过高(占总评测时间41%)以及任务难度分布不均衡,导致聚合分数不可靠。这些问题让Agent评测既慢又不准。
技术架构
ACE-Bench基于统一网格规划任务:Agent需要在部分完成的日程中填入隐藏槽位,同时满足局部约束和全局约束。两个正交轴控制难度:可扩展视野(Hidden Slots数量H)和可控难度(干扰项预算B)。关键创新:所有工具调用通过静态JSON文件解析,实现轻量级环境设计,消除设置开销。
关键数据
- 环境交互开销:从41%降低到接近零
- 评测模型:13个不同规模、不同系列的模型
- 覆盖领域:6个领域
关键洞察
轻量级评测=快速迭代的基础
41%的评测时间浪费在环境交互上,这个数字揭示了当前Agent评测的效率问题。ACE-Bench通过静态JSON文件解析将这部分开销降至接近零,这意味着我们可以更快速、更频繁地评测Agent——这对训练时的验证尤其重要。
可控难度让评测更公平
H和B两个参数提供了对任务难度和复杂度的精细控制。这意味着同一个benchmark可以评测不同能力级别的Agent,而不会因为任务太简单或太难而失去区分度。
相关阅读
- 论文:arXiv:2604.06111 | https://arxiv.org/abs/2604.06111
逍遥云初 | 2026.04.09
