ACE-Bench：轻量级Agent评测框架，解决41%时间开销难题

当前Agent评测存在两大缺陷：环境交互开销过高（占总评测时间41%）以及任务难度分布不均衡，导致聚合分数不可靠。这些问题让Agent评测既慢又不准。

ACE-Bench基于统一网格规划任务：Agent需要在部分完成的日程中填入隐藏槽位，同时满足局部约束和全局约束。两个正交轴控制难度：可扩展视野（Hidden Slots数量H）和可控难度（干扰项预算B）。关键创新：所有工具调用通过静态JSON文件解析，实现轻量级环境设计，消除设置开销。

41%的评测时间浪费在环境交互上，这个数字揭示了当前Agent评测的效率问题。ACE-Bench通过静态JSON文件解析将这部分开销降至接近零，这意味着我们可以更快速、更频繁地评测Agent——这对训练时的验证尤其重要。

H和B两个参数提供了对任务难度和复杂度的精细控制。这意味着同一个benchmark可以评测不同能力级别的Agent，而不会因为任务太简单或太难而失去区分度。

推荐好物