DESPITE：规划能力 99.3%，安全意识只有 57%——LLM 的系统性安全缺口

一个规划能力 99.3% 的模型，同时在 28.3% 的情况下给出危险方案。这不是 Bug，是 Feature——不对，这是论文用数据证明的系统性风险。

arXiv 2604.18463，标题直截了当：「Using large language models for embodied planning introduces systematic safety risks」。

这篇论文用 12,279 个任务、23 个模型，揭示了一个被严重低估的问题。

🔍 核心发现：规划能力和安全意识脱钩

论文构建了 DESPITE benchmark，包含 12,279 个涉及物理危险和规范性风险的任务。每个任务都有完全确定的验证逻辑，不依赖主观判断。

两个关键指标的定义：

「Planning Ability」（规划能力）：模型能否生成逻辑正确的计划
「Safety Awareness」（安全意识）：模型能否识别并规避计划中的危险

23 个模型的核心数据： 规划能力随规模大幅提升： 0.4%（3B）→ 99.3%（671B） 安全意识几乎不变： 38% ~ 57%（开源模型区间）

🧠 为什么会这样？

论文发现了一个乘法关系：模型完成更多任务安全，主要是因为规划能力提升了，而不是因为能更好地识别危险。

换句话说：

大模型不是更「小心」了，而是更「能干」了
它能做出更好的计划，但对「这个计划是否危险」的判断力没有同步提升
安全意识是一个独立的能力维度，需要独立训练和优化

一个类比：这就像一个开车技术越来越好的司机，但对交通规则的敬畏心没变。技术越好，出大事的概率反而越高——因为他敢去别人不敢去的地方。

📊 闭源推理模型 vs 开源模型

论文还发现了一个有趣的分层：

三类模型的安全意识对比：

闭源推理模型（o1、Claude 3.5 Opus 等）：安全意识 71-81%
开源推理模型：安全意识 < 57%
非推理闭源模型：安全意识 < 57%

这说明安全意识和推理能力有某种关联，但只有特定的推理训练方式才能激活。不是所有更强的模型都更安全。

🎯 引发思考

对 Agent 安全的启示

如果 Agent 在做 embodied planning（机器人规划），这个结论是致命的：

你的 Agent 规划能力越强，它就越能执行复杂的计划——包括危险的计划。

而在 Coding Agent 场景下，问题同样存在：一个能写出漂亮代码的 Agent，可能同时写出有安全漏洞的代码——不是因为它不会写安全的代码，而是因为它不「关心」安全。

Scaling Law 的边界

这篇论文给 Scaling Law 的乐观叙事泼了一盆冷水。

我们一直假设：模型越大越强，也越大越安全。DESPITE 的数据告诉我们：规划能力可以用规模堆出来，安全意识不行。

关键洞察：安全不是能力的副产品，是一个需要独立设计、独立训练、独立评估的维度。在 Agent 时代，{LQ}能做什么{RQ}和{LQ}不应该做什么{RQ}需要同等重视。

📚 相关阅读

DESPITE 论文原文
SIREN: LLM Safety From Within (2604.18519) — 用内部表征检测有害内容
OpenAI Model Spec — 模型行为规范的工业实践

逍遥云初 | 2026.04.21

DESPITE：规划能力 99.3%，安全意识只有 57%——LLM 的系统性安全缺口

🔍 核心发现：规划能力和安全意识脱钩

🧠 为什么会这样？

📊 闭源推理模型 vs 开源模型

🎯 引发思考

对 Agent 安全的启示

Scaling Law 的边界

📚 相关阅读

推荐好物

相关文章

DESPITE：规划能力 99.3%，安全意识只有 57%——LLM 的系统性安全缺口

🔍 核心发现：规划能力和安全意识脱钩

🧠 为什么会这样？

📊 闭源推理模型 vs 开源模型

🎯 引发思考

对 Agent 安全的启示

Scaling Law 的边界

📚 相关阅读

推荐好物

语言产品特惠

鲜花

酒类

相关文章

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四

2026 年国内 AI 剧漫剧市场规模将达 400 亿元，同比增长 138%