Claw-Eval： autonomous agent评测的新标准，揭示44%安全违规被传统方法遗漏

当前Agent评测存在三大缺陷：仅检查最终输出的轨迹不透明评测、缺乏安全与鲁棒性评估、模态覆盖和交互范式过窄。这些缺陷导致我们对Agent真实能力一无所知——尤其是安全性问题。

这个数字令人震惊。传统评测只看最终输出是否「做对了」，而不看过程是否「做安全了」。这意味着当前我们对AI Agent安全性的判断，存在系统性严重低估。Claw-Eval的轨迹感知评测发现了大量被传统方法遗漏的安全问题。

研究发现：受控错误注入主要降低的是一致性（Consistency）而非峰值能力。Pass^3下降高达24%，但Pass@3保持稳定。这意味着：一个Agent可能每次都能完成一次成功的任务，但在连续三次尝试中表现不稳定。这是生产环境部署的重大隐患。

Claw-Eval对自动驾驶和机器人领域有直接意义。视频理解能力普遍弱于图像和文档，这意味着在需要视频感知的场景（如自动驾驶视频流分析），当前模型的能力可能被严重高估。

推荐好物