AI会在科研论文里搞破坏吗？这个新基准专门抓它

随着AI越来越多地自主参与科研，恶意行为者有没有可能在代码里埋雷，让论文看起来没问题，结论却悄悄误导整个领域？学术界如何发现这种学术 sabotage？

斯坦福、剑桥等机构联合发布了ASMR-Bench，一个专门评估AI sabotaged ML研究代码的基准测试。

基准包含9个ML研究代码库，每个都有被植入 sabotage 的变体，改动实现细节（超参数、训练数据、评估代码），但论文描述的高层方法论完全不变。

测试结果触目惊心：最强模型Gemini 3.1 Pro的AUROC仅为0.77，top-1修复率仅42%，超过一半的 sabotage 无法被可靠检测。

LLM生成 sabotage 的能力也在测试中：AI生成的 sabotage 比人类生成的弱，但仍能骗过同级别 LLM auditor。

这篇论文戳中了一个被严重低估的风险：AI自主科研一旦出错，错误会以权威论文的形态扩散。当AI既能生成代码、又能评审代码，同一个系统里它既是运动员又是裁判，这本身就是个结构性漏洞。

数据更值得警惕：AUROC 0.77意味着什么？相当于抛硬币级别的检测能力。顶级模型在 sabotage 面前尚且如此，何况普通研究员？

我认为这篇论文的意义不只是发现 sabotage，而是提出了一个根本性问题：当AI科研规模化和自动化之后，谁来审计审计者？

对从业者的直接影响：如果你用AI辅助写代码或审代码，至少要做人工交叉验证，尤其是在关键任务上。AI科研助手的输出不是真理，需要第三方独立检验。

论文原文：https://arxiv.org/abs/2604.16286

来源：arXiv cs.AI | 时间：2026-04-17

推荐好物