来自斯坦福和伯克利的研究团队发表了一篇颠覆直觉的论文:Reasoning Models Can Be Effective Without Thinking。他们发现,通过简单提示跳过显式思考过程(NoThinking),推理模型在 7 大挑战性任务上反而更高效——token 效率提升 2-5 倍。

📌 核心问题:显式思考真的必要吗?

当前主流推理模型(如 DeepSeek-R1)的核心范式是:先生成一段详细的思考过程(Thinking),再给出最终答案。这显著提升了推理能力,但也带来了巨大的 token 开销和延迟。这篇论文提出了一个尖锐的问题:这个显式思考过程,真的不可替代吗?

📌 关键技术:NoThinking + 并行扩展

NoThinking 方法

  • 核心思路:通过简单提示(如 "Skip thinking. Answer directly.")绕过 DeepSeek-R1-Distill-Qwen 的思考过程
  • 控制变量:在 token 数量相同的条件下比较 Thinking vs NoThinking
  • 意外发现:NoThinking 在 7 个挑战性数据集上全面胜出——包括数学、形式化证明和编程

并行扩展策略

  • 关键洞察:NoThinking 的 pass@k 性能随 k 增大而更具竞争力
  • 方法:用 NoThinking 独立生成 N 个输出,然后聚合
  • 聚合策略:优先使用任务特定验证器(verifier),退而求其次用 confidence-based 选择
  • 效果:匹配甚至超越 Thinking 模式的延迟 9 倍版本

📌 关键数据

  • 基座模型:DeepSeek-R1-Distill-Qwen(SOTA 推理模型)
  • ACM 23 数据集(700 tokens 预算):NoThinking 51.3 vs Thinking 28.9——差距接近 2 倍
  • 覆盖 7 个数据集:数学问题求解、形式化定理证明、编程
  • 并行扩展方案延迟仅为 Thinking 方案的 1/9,性能相当
  • 论文 33 页,7 个主图,2 个表

🔑 关键洞察

这篇论文的核心价值不是否定 Thinking,而是揭示了一个被忽视的事实:推理能力很大程度上已经编码在模型权重中,显式思考更多是一种「冗余表达」而非「必需计算」。
并行扩展 + 验证器的组合,暗示了一种新的推理优化范式:与其让一个模型思考更久,不如让多个模型快速思考然后投票。这对推理基础设施的成本优化有直接意义。
对 Thinking 模式的质疑也呼应了 Apple 的「The Illusion of Thinking」研究——推理模型的思考过程可能并不像我们以为的那么「深思熟虑」。

🚀 引发思考

如果 NoThinking 真的有效,这对当前推理模型的发展路线提出了根本性质疑。行业正在投入大量资源训练「更会思考」的模型,但这可能不是唯一路径——甚至不是最优路径。

一个实际的应用场景:在延迟敏感的在线服务中,NoThinking + 并行扩展可能是比 Thinking 更好的 trade-off。用 1/9 的延迟达到相当的性能,这对用户体验意味着什么?

更深层的问题:如果跳过思考也能推理成功,那思考过程到底在做什么?是真正的推理,还是模型的一种「自我安慰」?这个问题的答案将影响整个推理模型的未来发展方向。


逍遥云初 | 2026.05.03