过去一年,整个 AI 行业都在卷「长思维链」:
OpenAI o 系列、DeepSeek R1、Claude 带 thinking 的版本、Qwen3——谁的思维链更长,谁在 reasoning benchmark 上就更强。
一个被默认接受的公式是:CoT 越长 = 推理越深 = 准确率越高。
但谷歌最近一篇 arXiv 论文(2026.02.13 提交,arXiv:2602.13517)把这个公式直接打掉。
核心结论一句话:token 数量根本不是推理质量的可靠代理,思维链长 ≠ 推理深。
真正能预测准确率的,是 deep-thinking tokens(深度思考 token) 的比例。
一、为什么「长思维链」是个假象
研究团队在四个高难度数学 / 科学 benchmark 上系统测了推理模型:
• AIME 24 / 25(美国数学邀请赛)
• HMMT 25(哈佛-麻省理工数学锦标赛)
• GPQA-diamond(研究生级科学问答)
测试的模型包括 GPT-OSS、DeepSeek-R1、Qwen3——全部是带显式推理通道的 reasoning model。
关键发现:
在不少场景下,生成 token 数增加,反而带来 准确率下降——这就是最近被广泛讨论的「overthinking(过度思考)」现象。
也就是说:模型在长思维链里「绕圈子」,绕得越久越错。
但这跟单条样本的 token 数没有简单对应关系——你无法通过截断 CoT 提前判断「这段推理会成功还是会失败」。
二、什么是 deep-thinking tokens
论文的核心概念是 deep-thinking tokens——指那些在模型较深层的内部预测中发生过「显著修正」的 token。
具体定义:
在模型的不同层(layer)对当前 token 的 hidden state 做预测,如果深层预测和浅层预测之间出现明显差异,那就说明这个 token 的最终表示经历了「重新思考」过程。
换句话说:deep-thinking token = 模型在这个位置真的「想了一下」。
而绝大多数 CoT 里的 token,浅层和深层预测是一致的——它们更像是「顺嘴说出来的」,没有真正的认知修正。
三、deep-thinking ratio 才是真指标
研究团队定义了一个新指标:deep-thinking ratio(deep-thinking tokens 在生成序列中的比例)。
在所有测试的模型和 benchmark 上,这个指标和准确率呈现 稳健且显著的正相关。
对比实验也做得很干净:
• Length-based baseline(基于长度):相关系数弱,甚至负相关
• Confidence-based baseline(基于置信度):相关性中等,但远不如 deep-thinking ratio
• Deep-thinking ratio:相关性强、跨模型跨 benchmark 表现稳定
对行业的冲击:
过去所有 reasoning 模型的内部评测,几乎都把「生成长度」当作隐含的推理深度信号。
OpenAI o1 / o3 的「reasoning_effort」参数,本质上也是在控制 token 预算。
这篇论文意味着:这个衡量框架从根本上就是错的。
四、Think@n:基于深度思考比例的测试时缩放
论文最有工程价值的贡献是 Think@n 策略。
传统方法:
• 跑 n 个完整推理样本
• 用 self-consistency 投票选最终答案
• 计算成本 ≈ n × 完整推理成本
Think@n 做的事:
• 同时跑 n 个推理样本
• 在生成过程中实时监测 deep-thinking ratio
• 早期拒绝:如果某个样本的 deep-thinking ratio 持续偏低,在它还没生成完时就丢弃
• 把剩余的算力集中在高 deep-thinking ratio 的样本上
实验结果:
Think@n 在显著降低推理成本的同时,准确率 与甚至超过 标准 self-consistency。
对部署的意义:
• 推理 token 单价高(o3 一次推理 ≈ 几美元)
• 用户对响应延迟敏感
• Think@n 让「早期终止劣质推理路径」成为可能
这是一个对生产部署非常友好的工程优化。
五、对 AI 行业的判断
1. 「长 CoT = 强推理」的产业共识被打破。 o1 / R1 / Qwen3 团队花大力气训练模型「想得更久」,但这个度量本身就不对。后续模型训练应该直接以 deep-thinking ratio 作为优化目标。
2. 推理 token 的「通胀」会触顶。 OpenAI、Anthropic 都推出过「max thinking effort」级别的高预算模式,背后假设是「更多 token = 更好结果」。如果 deep-thinking ratio 才是关键,那 token 通胀会停在这里,模型厂商会转向「提升 deep-thinking 密度」而非「拉长输出」。
3. 可解释性研究有了新工具。 deep-thinking tokens 提供了「模型在哪一步真的在思考」的客观信号,可以用于诊断 hallucination、跟踪推理失败、训练数据归因。
4. Agent 系统的 Token 经济模型会重写。 当前 Agent 系统的成本模型是「每步 LLM 调用 × token 单价」。Think@n 这种早期拒绝策略可以集成到 Agent loop 里,让 Agent 在不确定时主动放弃低质量推理路径。
5. 学术和工业的「推理评价」开始分化。 学术上,paper 会用 deep-thinking ratio 作为新指标;工业上,模型厂商会重新包装「reasoning_effort」参数——可能很快就会有「Deep Thinking Mode」这种产品功能。
六、为什么这件事值得认真看
CoT 出现三年多,所有主流厂商、几乎所有 benchmark、所有 reasoning 论文,默认假设都是「长 CoT = 深推理」。
这篇论文第一次系统地证伪了这个假设。
它不是「又一个新指标」,而是「对推理的根本度量的重新定义」。
后续的开源推理模型(DeepSeek R2、Qwen4、Llama 4 Reasoning)如果跟进这个框架,整个 reasoning 模型赛道的训练目标和评测体系都会重构。
来源:arXiv:2602.13517(Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens,2026.02.13)
相关阅读
• 2026-06-14:CMU《Unfaithful Capitulation》——推理模型在多轮施压下「链对答案错」的隐蔽失效
• 2026-05-23:AAAI 2026 用梯度打开 base 模型的思维链
• 2026-05-15:arXiv 收紧 AI 生成内容规则






