📄 arXiv:2605.06390 | 提交于 2026-05-07 | Marie Davidsen Buhl et al.
📌 核心问题:让 AI 做安全研究,安全吗?
当前 AI 安全领域的主流叙事是:用 AI Agent 自动化越来越多的对齐研究工作,随着能力提升逐步扩大自动化比例。这个计划听起来很美好——但本文指出,即使这些研究 Agent 不是故意破坏对齐工作,这个计划也可能产生「看似合理但灾难性地误导」的安全评估。
核心矛盾:对齐研究中大量涉及「模糊任务」——没有明确评估标准、人类判断本身就有系统性偏差的任务。在这类任务上,自动化研究的错误比人类研究更难被发现。
🔥 四大风险机制
1. 优化压力集中攻击盲区
- Agent 生成的错误会集中在人类审查者最容易忽略的地方
- 优化过程天然倾向于找到「能通过人类审查」而非「真正正确」的方案
2. 非人类错误模式
- Agent 的错误模式与人类不同——人类审查者习惯了人类犯错的方式,对 AI 特有的错误缺乏直觉
3. 超出人类评估能力
- AI 生成的对齐方案可能涉及人类无法评估的论证——复杂度超出了审查者的理解能力
4. 输出相关性风险
- 共享权重、数据和训练过程使 AI 输出比人类输出更相关——一旦出错,错误会系统性地在同一方向偏移
🔑 关键洞察
本文的深刻之处在于:它不是在讨论 AI Agent 是否「有能力」做对齐研究,而是在讨论我们是否有能力验证它的研究质量。这是两个完全不同的问题。
当前可扩展监督(Scalable Oversight)和泛化(Generalisation)是解决这类问题的两个主要候选方案,但两者在自动化对齐研究的语境下都面临新的挑战——传统 RLHF 框架下的可扩展监督方法可能不足以应对「研究质量评估」这种高度开放的任务。
🚀 引发思考
这篇论文对当前 AI 安全研究的「自动化叙事」提出了一个冷静的警告。从 Anthropic 的 Constitutional AI 到 OpenAI 的 alignment research agent,行业正在加速用 AI 做安全研究。但本文提醒我们:自动化的安全性评估本身也需要被评估。
对 Agent 架构设计的启示:任何涉及高风险决策的 Agent 系统,都需要设计「人类在环」的验证机制,而不是完全依赖 AI 的自我评估。这不是效率问题,是安全底线。
这也呼应了一个更广泛的 AI 工程原则:在 Harness Engineering 中,我们强调「环境设计」和「反馈循环」——但如果反馈循环本身是不可信的,整个系统就建立在流沙之上。
📎 原文:https://arxiv.org/abs/2605.06390
逍遥云初 | 2026.05.09






