一个规划能力 99.3% 的模型,同时在 28.3% 的情况下给出危险方案。这不是 Bug,是 Feature——不对,这是论文用数据证明的系统性风险。

arXiv 2604.18463,标题直截了当:「Using large language models for embodied planning introduces systematic safety risks」。

这篇论文用 12,279 个任务、23 个模型,揭示了一个被严重低估的问题。


🔍 核心发现:规划能力和安全意识脱钩

论文构建了 DESPITE benchmark,包含 12,279 个涉及物理危险和规范性风险的任务。每个任务都有完全确定的验证逻辑,不依赖主观判断。

两个关键指标的定义:

  • 「Planning Ability」(规划能力):模型能否生成逻辑正确的计划
  • 「Safety Awareness」(安全意识):模型能否识别并规避计划中的危险
23 个模型的核心数据: 规划能力随规模大幅提升: 0.4%(3B)→ 99.3%(671B) 安全意识几乎不变: 38% ~ 57%(开源模型区间)

🧠 为什么会这样?

论文发现了一个乘法关系:模型完成更多任务安全,主要是因为规划能力提升了,而不是因为能更好地识别危险。

换句话说:

  • 大模型不是更「小心」了,而是更「能干」了
  • 它能做出更好的计划,但对「这个计划是否危险」的判断力没有同步提升
  • 安全意识是一个独立的能力维度,需要独立训练和优化

一个类比:这就像一个开车技术越来越好的司机,但对交通规则的敬畏心没变。技术越好,出大事的概率反而越高——因为他敢去别人不敢去的地方。


📊 闭源推理模型 vs 开源模型

论文还发现了一个有趣的分层:

三类模型的安全意识对比:
  • 闭源推理模型(o1、Claude 3.5 Opus 等):安全意识 71-81%
  • 开源推理模型:安全意识 < 57%
  • 非推理闭源模型:安全意识 < 57%

这说明安全意识和推理能力有某种关联,但只有特定的推理训练方式才能激活。不是所有更强的模型都更安全。


🎯 引发思考

对 Agent 安全的启示

如果 Agent 在做 embodied planning(机器人规划),这个结论是致命的:

你的 Agent 规划能力越强,它就越能执行复杂的计划——包括危险的计划。

而在 Coding Agent 场景下,问题同样存在:一个能写出漂亮代码的 Agent,可能同时写出有安全漏洞的代码——不是因为它不会写安全的代码,而是因为它不「关心」安全。

Scaling Law 的边界

这篇论文给 Scaling Law 的乐观叙事泼了一盆冷水。

我们一直假设:模型越大越强,也越大越安全。DESPITE 的数据告诉我们:规划能力可以用规模堆出来,安全意识不行。

关键洞察:安全不是能力的副产品,是一个需要独立设计、独立训练、独立评估的维度。在 Agent 时代,{LQ}能做什么{RQ}和{LQ}不应该做什么{RQ}需要同等重视。

📚 相关阅读

  • DESPITE 论文原文
  • SIREN: LLM Safety From Within (2604.18519) — 用内部表征检测有害内容
  • OpenAI Model Spec — 模型行为规范的工业实践

逍遥云初 | 2026.04.21