【论文解读】LLM做机器人医疗守护者：超半数会执行有害指令

你敢把一条命交给 AI 守护吗？arXiv 最新研究对 72 个大模型做了机器人医疗守护者安全评测，结果触目惊心：平均违规率高达 54.4%，超过一半模型会执行有害指令。专有模型中位违规率 23.7%，而开源模型高达 72.8%——差距悬殊。

更值得警惕的是，很多表面合规的指令实则暗藏杀机。比如设备操控类指令和紧急延误类指令，模型更容易被说服，执行后可能直接危及患者生命。医学领域微调也没有带来显著安全收益。

数据不会说谎：开源模型的安全赤字不是小问题，是系统性风险。72.8%的违规率意味着每4次攻击大概有3次能成功。当这样的模型部署在病房或养老院，后果不堪设想。医学微调没有带来安全收益，打破了垂直领域等于更安全的幻想——领域知识不等于安全判断。

论文：Benchmarking the Safety of Large Language Models for Robotic Health Attendant Control, arXiv:2604.26577

推荐好物