Think Deep, Not Just Long：用深度思考 Token 重新定义 LLM 推理质量

大语言模型（LLM）通过生成长链思维链（Chain-of-Thought, CoT）来扩展推理能力已成为主流范式。OpenAI 的 o3-mini、DeepSeek-R1、Qwen3 等模型都在「想得更多」这条路上越走越远。然而，一个关键问题被忽视了：生成更多 token 真的意味着更好的推理吗？

越来越多的实证研究给出了否定答案。输出长度与准确率之间存在倒 U 型关系——过长的推理反而导致性能退化，即所谓的「过度思考」（overthinking）现象。模型可能在冗长的推理中放大错误的启发式方法，或纠结于无关细节。用 token 数量衡量推理质量，不仅鼓励了冗余表达，更浪费了大量计算资源。

来自 Google Research 和弗吉尼亚大学的研究团队提出了一个全新视角：不是所有 token 都平等。真正有价值的推理 token，是那些在模型深层才最终「稳定」的 token——他们称之为「深度思考 token」（Deep-Thinking Tokens）。

研究在 4 个高难度数学/科学基准和多个推理模型上验证了 DTR 的有效性：

核心思想：通过中间层的预测分布变化来衡量每个 token 的「思考深度」。如果一个 token 的预测分布在浅层就收敛了，说明模型没怎么「想」；如果到深层才收敛，说明模型在认真「思考」。
技术实现：将中间层的隐藏状态通过 unembedding 矩阵投影到词表空间，计算每层与最终层之间的 Jensen-Shannon 散度（JSD）。当 JSD 首次低于阈值 g 的层即为该 token 的「稳定深度」。
深度思考判定：设置深度分数 ρ（如 0.8），只有在模型最后 20% 层才稳定的 token 才被认定为「深度思考 token」。DTR = 深度思考 token 数 / 总 token 数。
Think@n 策略：并行生成 n 个候选回答，按 DTR 排序，优先选择高 DTR 的样本进行聚合。关键优势：可以基于短前缀提前拒绝低质量生成，大幅降低推理成本。
可视化洞察：功能词（如「and」「is」）在浅层就稳定；运算符后的结果（如「+」「=」后的数字）和答案 token 需要到深层才稳定——这恰好对应了「真正需要推理」的部分。

关键洞察 1：Token 数量是推理质量的糟糕代理指标

研究发现输出长度与准确率呈负相关（r = -0.544），这意味着让模型「想得更长」不仅无益，反而有害。当前业界流行的「鼓励更长思考链」的做法值得重新审视。真正的推理能力不在于生成多少 token，而在于这些 token 中有多少经过了深层的「认真思考」。

关键洞察 2：模型内部的「思考深度」可以通过简单机制测量

DTR 方法的核心巧妙之处在于：不需要外部标注、不需要任务特定的启发式方法，只需将中间层隐藏状态投影到词表空间并计算 JSD。这是一种机制性的、通用的推理努力度量方法，适用于任何自回归 Transformer 模型。

关键洞察 3：Think@n 为推理成本优化提供了新范式

Think@n 的核心思想是「质量 > 数量」：与其让模型想很久生成一个冗长回答，不如并行生成多个短回答，用 DTR 快速筛选出最有可能正确的那个。基于短前缀的提前拒绝机制，使得推理成本降低约 50%，这为大规模部署推理模型提供了实用的优化方向。

关键洞察 4：不同类型的 token 需要的「思考深度」截然不同

可视化分析显示，功能词和模板词（如「and」「is」「boxed」）在浅层即可稳定，而运算符后的结果和答案 token 需要到深层才收敛。这意味着模型内部已经学会了「把计算力花在刀刃上」，只是当前的推理评估方法没有捕捉到这一点。

这项研究对当前「scaling test-time compute」的主流范式提出了根本性的质疑。当整个行业都在追求更长的推理链、更多的推理 token 时，DTR 提醒我们：不是所有 token 都值得被生成。真正有价值的推理发生在模型内部的深层计算中，而非表面的文本输出中。

对于 AI Agent 和 Coding Agent 的设计，这个发现同样具有启发意义：与其让 Agent 生成冗长的「思考日志」来证明它在工作，不如关注它是否在关键决策点进行了深层推理。未来，DTR 可能成为评估推理模型质量的新标准，替代当前粗暴的「越长越好」指标。

推荐好物