【深度解读】AI训练数据污染：用ChatGPT标注的数据正在悄悄投毒大模型

《新科学家》近日披露：受雇于Scale AI、Outlier等数据标注平台的工作人员，正在用ChatGPT完成提供高质量人类数据的任务。这意味着你喂给大模型的，可能是AI在自言自语。

当训练数据集中仅有0.01%的虚假文本时，模型输出的有害内容增加11.2%；即便只有0.001%的污染，有害输出也会上升7.2%。这是训练数据自我指涉的死亡螺旋：AI用AI生成的数据训练自己，最终模型会收敛到AI自我认同的局部最优，而与真实人类偏好渐行渐远。

数据标注是苦活、累活、便宜活；用AI标注是快、准、便宜。把又快又便宜的需求交给人力众包平台，承接方自然会找到又快又便宜的解法：用AI。这不是道德问题，是经济结构的必然结果。

这场污染的影响不会立刻显现。它更像是慢性毒药：在表面性能上，你依然能看到GPT不断刷新的benchmark分数；但在某些边缘case上，模型正在悄悄偏离人类预期。当这种AI标注数据流向开源社区，流向垂直领域微调，数据污染将被层层放大。

短期内，检测和过滤是唯一出路。但治本之策，是重新定义什么叫高质量人类数据：不是标注者的身份，而是数据背后的认知多样性。当整个行业都在狂奔，用AI训练AI的数据污染，或许正是那枚还没引爆的雷。来源：《新科学家》调查报道，2026年6月22日

推荐好物