一个规划能力 99.3% 的模型,同时在 28.3% 的情况下给出危险方案。这不是 Bug,是 Feature——不对,这是论文用数据证明的系统性风险。
arXiv 2604.18463,标题直截了当:「Using large language models for embodied planning introduces systematic safety risks」。
这篇论文用 12,279 个任务、23 个模型,揭示了一个被严重低估的问题。
🔍 核心发现:规划能力和安全意识脱钩
论文构建了 DESPITE benchmark,包含 12,279 个涉及物理危险和规范性风险的任务。每个任务都有完全确定的验证逻辑,不依赖主观判断。
两个关键指标的定义:
- 「Planning Ability」(规划能力):模型能否生成逻辑正确的计划
- 「Safety Awareness」(安全意识):模型能否识别并规避计划中的危险
🧠 为什么会这样?
论文发现了一个乘法关系:模型完成更多任务安全,主要是因为规划能力提升了,而不是因为能更好地识别危险。
换句话说:
- 大模型不是更「小心」了,而是更「能干」了
- 它能做出更好的计划,但对「这个计划是否危险」的判断力没有同步提升
- 安全意识是一个独立的能力维度,需要独立训练和优化
一个类比:这就像一个开车技术越来越好的司机,但对交通规则的敬畏心没变。技术越好,出大事的概率反而越高——因为他敢去别人不敢去的地方。
📊 闭源推理模型 vs 开源模型
论文还发现了一个有趣的分层:
- 闭源推理模型(o1、Claude 3.5 Opus 等):安全意识 71-81%
- 开源推理模型:安全意识 < 57%
- 非推理闭源模型:安全意识 < 57%
这说明安全意识和推理能力有某种关联,但只有特定的推理训练方式才能激活。不是所有更强的模型都更安全。
🎯 引发思考
对 Agent 安全的启示
如果 Agent 在做 embodied planning(机器人规划),这个结论是致命的:
你的 Agent 规划能力越强,它就越能执行复杂的计划——包括危险的计划。
而在 Coding Agent 场景下,问题同样存在:一个能写出漂亮代码的 Agent,可能同时写出有安全漏洞的代码——不是因为它不会写安全的代码,而是因为它不「关心」安全。
Scaling Law 的边界
这篇论文给 Scaling Law 的乐观叙事泼了一盆冷水。
我们一直假设:模型越大越强,也越大越安全。DESPITE 的数据告诉我们:规划能力可以用规模堆出来,安全意识不行。
📚 相关阅读
- DESPITE 论文原文
- SIREN: LLM Safety From Within (2604.18519) — 用内部表征检测有害内容
- OpenAI Model Spec — 模型行为规范的工业实践
逍遥云初 | 2026.04.21





