arXiv深度 | 思维链越长推理越强？谷歌新研究：错！deep-thinking tokens 才是真正的推理指标

过去一年，整个 AI 行业都在卷「长思维链」：

OpenAI o 系列、DeepSeek R1、Claude 带 thinking 的版本、Qwen3——谁的思维链更长，谁在 reasoning benchmark 上就更强。

一个被默认接受的公式是：CoT 越长 = 推理越深 = 准确率越高。

但谷歌最近一篇 arXiv 论文（2026.02.13 提交，arXiv:2602.13517）把这个公式直接打掉。

核心结论一句话：token 数量根本不是推理质量的可靠代理，思维链长 ≠ 推理深。

真正能预测准确率的，是 deep-thinking tokens（深度思考 token） 的比例。

一、为什么「长思维链」是个假象

研究团队在四个高难度数学 / 科学 benchmark 上系统测了推理模型：

• AIME 24 / 25（美国数学邀请赛）

• HMMT 25（哈佛-麻省理工数学锦标赛）

• GPQA-diamond（研究生级科学问答）

测试的模型包括 GPT-OSS、DeepSeek-R1、Qwen3——全部是带显式推理通道的 reasoning model。

关键发现：

在不少场景下，生成 token 数增加，反而带来 准确率下降——这就是最近被广泛讨论的「overthinking（过度思考）」现象。

也就是说：模型在长思维链里「绕圈子」，绕得越久越错。

但这跟单条样本的 token 数没有简单对应关系——你无法通过截断 CoT 提前判断「这段推理会成功还是会失败」。

二、什么是 deep-thinking tokens

论文的核心概念是 deep-thinking tokens——指那些在模型较深层的内部预测中发生过「显著修正」的 token。

具体定义：

在模型的不同层（layer）对当前 token 的 hidden state 做预测，如果深层预测和浅层预测之间出现明显差异，那就说明这个 token 的最终表示经历了「重新思考」过程。

换句话说：deep-thinking token = 模型在这个位置真的「想了一下」。

而绝大多数 CoT 里的 token，浅层和深层预测是一致的——它们更像是「顺嘴说出来的」，没有真正的认知修正。

三、deep-thinking ratio 才是真指标

研究团队定义了一个新指标：deep-thinking ratio（deep-thinking tokens 在生成序列中的比例）。

在所有测试的模型和 benchmark 上，这个指标和准确率呈现 稳健且显著的正相关。

对比实验也做得很干净：

• Length-based baseline（基于长度）：相关系数弱，甚至负相关

• Confidence-based baseline（基于置信度）：相关性中等，但远不如 deep-thinking ratio

• Deep-thinking ratio：相关性强、跨模型跨 benchmark 表现稳定

对行业的冲击：

过去所有 reasoning 模型的内部评测，几乎都把「生成长度」当作隐含的推理深度信号。

OpenAI o1 / o3 的「reasoning_effort」参数，本质上也是在控制 token 预算。

这篇论文意味着：这个衡量框架从根本上就是错的。

四、Think@n：基于深度思考比例的测试时缩放

论文最有工程价值的贡献是 Think@n 策略。

传统方法：

• 跑 n 个完整推理样本

• 用 self-consistency 投票选最终答案

• 计算成本 ≈ n × 完整推理成本

Think@n 做的事：

• 同时跑 n 个推理样本

• 在生成过程中实时监测 deep-thinking ratio

• 早期拒绝：如果某个样本的 deep-thinking ratio 持续偏低，在它还没生成完时就丢弃

• 把剩余的算力集中在高 deep-thinking ratio 的样本上

实验结果：

Think@n 在显著降低推理成本的同时，准确率 与甚至超过 标准 self-consistency。

对部署的意义：

• 推理 token 单价高（o3 一次推理 ≈ 几美元）

• 用户对响应延迟敏感

• Think@n 让「早期终止劣质推理路径」成为可能

这是一个对生产部署非常友好的工程优化。

五、对 AI 行业的判断

1. 「长 CoT = 强推理」的产业共识被打破。 o1 / R1 / Qwen3 团队花大力气训练模型「想得更久」，但这个度量本身就不对。后续模型训练应该直接以 deep-thinking ratio 作为优化目标。

2. 推理 token 的「通胀」会触顶。 OpenAI、Anthropic 都推出过「max thinking effort」级别的高预算模式，背后假设是「更多 token = 更好结果」。如果 deep-thinking ratio 才是关键，那 token 通胀会停在这里，模型厂商会转向「提升 deep-thinking 密度」而非「拉长输出」。

3. 可解释性研究有了新工具。 deep-thinking tokens 提供了「模型在哪一步真的在思考」的客观信号，可以用于诊断 hallucination、跟踪推理失败、训练数据归因。

4. Agent 系统的 Token 经济模型会重写。 当前 Agent 系统的成本模型是「每步 LLM 调用 × token 单价」。Think@n 这种早期拒绝策略可以集成到 Agent loop 里，让 Agent 在不确定时主动放弃低质量推理路径。

5. 学术和工业的「推理评价」开始分化。 学术上，paper 会用 deep-thinking ratio 作为新指标；工业上，模型厂商会重新包装「reasoning_effort」参数——可能很快就会有「Deep Thinking Mode」这种产品功能。

六、为什么这件事值得认真看

CoT 出现三年多，所有主流厂商、几乎所有 benchmark、所有 reasoning 论文，默认假设都是「长 CoT = 深推理」。

这篇论文第一次系统地证伪了这个假设。

它不是「又一个新指标」，而是「对推理的根本度量的重新定义」。

后续的开源推理模型（DeepSeek R2、Qwen4、Llama 4 Reasoning）如果跟进这个框架，整个 reasoning 模型赛道的训练目标和评测体系都会重构。

来源：arXiv:2602.13517（Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens，2026.02.13）

arXiv深度 | 思维链越长推理越强？谷歌新研究：错！deep-thinking tokens 才是真正的推理指标

一、为什么「长思维链」是个假象

二、什么是 deep-thinking tokens

三、deep-thinking ratio 才是真指标

四、Think@n：基于深度思考比例的测试时缩放

五、对 AI 行业的判断

六、为什么这件事值得认真看

相关阅读

推荐好物

相关文章

arXiv深度 | 思维链越长推理越强？谷歌新研究：错！deep-thinking tokens 才是真正的推理指标

一、为什么「长思维链」是个假象

二、什么是 deep-thinking tokens

三、deep-thinking ratio 才是真指标

四、Think@n：基于深度思考比例的测试时缩放

五、对 AI 行业的判断

六、为什么这件事值得认真看

相关阅读

推荐好物

音视频低代码

游戏服专属特惠

AI领航·智慧未来

相关文章

AI科技前沿快讯｜2026年7月29日

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四