核心问题:思维链长度 ≠ 推理深度

大语言模型(LLM)通过生成长链思维链(Chain-of-Thought, CoT)来扩展推理能力已成为主流范式。OpenAI 的 o3-mini、DeepSeek-R1、Qwen3 等模型都在「想得更多」这条路上越走越远。然而,一个关键问题被忽视了:生成更多 token 真的意味着更好的推理吗?

越来越多的实证研究给出了否定答案。输出长度与准确率之间存在倒 U 型关系——过长的推理反而导致性能退化,即所谓的「过度思考」(overthinking)现象。模型可能在冗长的推理中放大错误的启发式方法,或纠结于无关细节。用 token 数量衡量推理质量,不仅鼓励了冗余表达,更浪费了大量计算资源。

来自 Google Research 和弗吉尼亚大学的研究团队提出了一个全新视角:不是所有 token 都平等。真正有价值的推理 token,是那些在模型深层才最终「稳定」的 token——他们称之为「深度思考 token」(Deep-Thinking Tokens)。

关键数据

研究在 4 个高难度数学/科学基准和多个推理模型上验证了 DTR 的有效性:

  • 基准测试:AIME 2024、AIME 2025、HMMT 2025、GPQA-Diamond
  • 模型:GPT-OSS-120B、DeepSeek-R1、Qwen3 系列
  • 输出 token 数量与准确率的相关系数:r = -0.544(负相关!更长 ≠ 更好)
  • DTR 与准确率的相关系数:r = 0.828(强正相关,远超长度和置信度基线)
  • Think@n 策略:推理成本降低约 50%,性能与标准 Self-Consistency 持平或更优

技术架构与设计

  • 核心思想:通过中间层的预测分布变化来衡量每个 token 的「思考深度」。如果一个 token 的预测分布在浅层就收敛了,说明模型没怎么「想」;如果到深层才收敛,说明模型在认真「思考」。
  • 技术实现:将中间层的隐藏状态通过 unembedding 矩阵投影到词表空间,计算每层与最终层之间的 Jensen-Shannon 散度(JSD)。当 JSD 首次低于阈值 g 的层即为该 token 的「稳定深度」。
  • 深度思考判定:设置深度分数 ρ(如 0.8),只有在模型最后 20% 层才稳定的 token 才被认定为「深度思考 token」。DTR = 深度思考 token 数 / 总 token 数。
  • Think@n 策略:并行生成 n 个候选回答,按 DTR 排序,优先选择高 DTR 的样本进行聚合。关键优势:可以基于短前缀提前拒绝低质量生成,大幅降低推理成本。
  • 可视化洞察:功能词(如「and」「is」)在浅层就稳定;运算符后的结果(如「+」「=」后的数字)和答案 token 需要到深层才稳定——这恰好对应了「真正需要推理」的部分。

关键洞察

关键洞察 1:Token 数量是推理质量的糟糕代理指标

研究发现输出长度与准确率呈负相关(r = -0.544),这意味着让模型「想得更长」不仅无益,反而有害。当前业界流行的「鼓励更长思考链」的做法值得重新审视。真正的推理能力不在于生成多少 token,而在于这些 token 中有多少经过了深层的「认真思考」。

关键洞察 2:模型内部的「思考深度」可以通过简单机制测量

DTR 方法的核心巧妙之处在于:不需要外部标注、不需要任务特定的启发式方法,只需将中间层隐藏状态投影到词表空间并计算 JSD。这是一种机制性的、通用的推理努力度量方法,适用于任何自回归 Transformer 模型。

关键洞察 3:Think@n 为推理成本优化提供了新范式

Think@n 的核心思想是「质量 > 数量」:与其让模型想很久生成一个冗长回答,不如并行生成多个短回答,用 DTR 快速筛选出最有可能正确的那个。基于短前缀的提前拒绝机制,使得推理成本降低约 50%,这为大规模部署推理模型提供了实用的优化方向。

关键洞察 4:不同类型的 token 需要的「思考深度」截然不同

可视化分析显示,功能词和模板词(如「and」「is」「boxed」)在浅层即可稳定,而运算符后的结果和答案 token 需要到深层才收敛。这意味着模型内部已经学会了「把计算力花在刀刃上」,只是当前的推理评估方法没有捕捉到这一点。

引发思考

这项研究对当前「scaling test-time compute」的主流范式提出了根本性的质疑。当整个行业都在追求更长的推理链、更多的推理 token 时,DTR 提醒我们:不是所有 token 都值得被生成。真正有价值的推理发生在模型内部的深层计算中,而非表面的文本输出中。

对于 AI Agent 和 Coding Agent 的设计,这个发现同样具有启发意义:与其让 Agent 生成冗长的「思考日志」来证明它在工作,不如关注它是否在关键决策点进行了深层推理。未来,DTR 可能成为评估推理模型质量的新标准,替代当前粗暴的「越长越好」指标。

相关阅读


逍遥云初 | 2025.05.25