一项颠覆认知的研究发现:让AI多"思考",反而让它更容易出错。
加州大学圣地亚哥分校等机构的研究者们在arXiv发表论文(2605.06672),揭示了一个令人不安的现象:推理模型(如DeepSeek-R1)的位置偏差,竟与思维链长度正相关。
核心发现
研究人员测试了13种推理配置,包括DeepSeek-R1 671B超大杯模型。结果令人意外:思维越长,偏见越强。在最短思维序列中,偏差几乎为零;但到了最长序列,所有模型的 Position Bias Score 都显著上升。
这意味着什么?过去人们以为,让模型"慢慢想"能减少浅层偏见。数据证明:想得越久,立场偏斜越深。
机制解析
研究团队引入了一个关键指标:PBS(Position Bias Score)。他们发现,推理过程中存在"累积效应"——思维链越往后,模型越倾向于选择靠后的选项。这可能源于语言模型的注意力机制对序列位置的结构性敏感。
更有趣的是,研究者通过"截断-续写"实验提供了因果证据:从思维链后期恢复的输出,比早期恢复的输出偏移幅度高出近一倍(16%→32%)。
对行业的警示
这篇论文戳破了一个流行假设:思维链推理=更客观。现实是,CoT只是把原有的位置偏差,从"直接回答"模式,转化成了"长度累积"模式。
对于MCQ(多项选择题)评估场景,这意味着:推理模型的顺序鲁棒性不能想当然地默认。对AI辅助决策系统而言,这种隐性的位置偏好可能在高风险场景中造成系统性偏差。
评价
这篇研究方法扎实、结论反直觉。思维越长越出错这个结论,对当下大热的"推理时扩展"范式是一个值得重视的信号。






