核心问题
当前Agent评测存在三大缺陷:仅检查最终输出的轨迹不透明评测、缺乏安全与鲁棒性评估、模态覆盖和交互范式过窄。这些缺陷导致我们对Agent真实能力一无所知——尤其是安全性问题。
关键数据
- Claw-Eval:300个人工验证任务,9个类别,3个任务组
- 评分维度:Completion、Safety、Robustness三大维度
- 轨迹评估:3个独立证据通道(执行跟踪、审计日志、环境快照)
- 评测模型:14个前沿模型
- 关键发现:传统方法遗漏44%的安全违规和13%的鲁棒性失败
关键洞察
44%的安全违规被遗漏意味着什么?
这个数字令人震惊。传统评测只看最终输出是否「做对了」,而不看过程是否「做安全了」。这意味着当前我们对AI Agent安全性的判断,存在系统性严重低估。Claw-Eval的轨迹感知评测发现了大量被传统方法遗漏的安全问题。
一致性比峰值能力更脆弱
研究发现:受控错误注入主要降低的是一致性(Consistency)而非峰值能力。Pass^3下降高达24%,但Pass@3保持稳定。这意味着:一个Agent可能每次都能完成一次成功的任务,但在连续三次尝试中表现不稳定。这是生产环境部署的重大隐患。
引发思考
Claw-Eval对自动驾驶和机器人领域有直接意义。视频理解能力普遍弱于图像和文档,这意味着在需要视频感知的场景(如自动驾驶视频流分析),当前模型的能力可能被严重高估。
相关阅读
- 论文:arXiv:2604.06132 | https://arxiv.org/abs/2604.06132
逍遥云初 | 2026.04.08





