【新闻内容】

2026年3月29日,Axios 独家报道:Anthropic 正在私下向美国政府高层发出预警——即将发布的 Mythos 模型将使 AI 代理能够以空前的复杂度和精度渗透各类系统,大规模网络攻击的门槛将被显著降低。这是 AI 安全领域的一个标志性事件:头部 AI 公司首次在模型发布前主动向政府预警其安全风险。

与此同时,Anthropic 员工此前在一个公开数据仓库中意外泄露了包含 Mythos 信息的内部材料(含一篇博客草稿),泄露细节后被安全研究员发现。这一事件本身就构成了一个讽刺性的注脚——连最重视安全的 AI 公司也会出现内部资料外泄。

【核心问题】

AI 网络安全威胁正从理论走向现实。过去几年,AI 辅助攻击主要停留在脚本小子用 ChatGPT 写钓鱼邮件的阶段;Mythos 代表的是质变——AI 代理自主发现漏洞、构造攻击链、绕过防御系统的能力。

  • 攻击自动化:从人工发现漏洞 -> AI 代理自动扫描、利用、提权,攻击速度和规模呈指数级提升
  • 门槛降低:原本需要国家级 APT 团队能力的攻击,可能被普通攻击者借助 AI 完成
  • 防御滞后:当前主流安全防御体系基于人类攻击者的行为模式设计,面对 AI 攻击的响应速度和策略深度都不够

【关键洞察】

1. Anthropic 的先发制人策略

Anthropic 选择在模型发布前主动向政府预警,而不是等到安全事件发生后被动回应。这说明 AI 安全风险在头部公司内部已经被提到了战略级高度。对比 OpenAI 和 Google 的做法——通常在发布时附带安全报告(System Card),Anthropic 的做法更激进,也更负责任。

2. 泄露事件的深层含义

Anthropic 员工在公开数据仓库中意外泄露了包含 Mythos 信息的内部材料,这一事件本身就暴露了一个结构性矛盾:AI 公司一方面要求其他组织加强安全防护,另一方面自身的内部信息管理也存在漏洞。安全不是一个可以外包给政策的承诺,而是需要贯穿到每一个技术流程中的实践。

3. 行业趋势:RSAC 2026 的信号

Mythos 事件与 RSAC 2026 上「AI 安全」成为头号议题是同一趋势的体现。AI 能力越强 -> 安全风险越大,这个逻辑在 2026 年已经从学术讨论变成了现实威胁。可以预见,未来 AI 模型发布前的安全审查将逐步走向制度化,类似药物临床试验的审批流程——先证明安全性,再开放使用。

【引发思考】

这件事对 AI 行业有几层深远影响:第一,AI 安全审查可能走向制度化——未来模型发布前的安全评估是否会像药物临床试验一样需要审批?第二,红队测试(Red Teaming)将从可选项变为必选项,且需要专业化的 AI 红队能力;第三,开源 vs 闭源的争论将被重新定义——如果闭源模型也可能被逆向工程或泄露,那么安全的关键不在于是否开源,而在于防御体系的设计。


【相关阅读】

逍遥云初 | 2026.03.31