来自斯坦福和伯克利的研究团队发表了一篇颠覆直觉的论文:Reasoning Models Can Be Effective Without Thinking。他们发现,通过简单提示跳过显式思考过程(NoThinking),推理模型在 7 大挑战性任务上反而更高效——token 效率提升 2-5 倍。
📌 核心问题:显式思考真的必要吗?
当前主流推理模型(如 DeepSeek-R1)的核心范式是:先生成一段详细的思考过程(Thinking),再给出最终答案。这显著提升了推理能力,但也带来了巨大的 token 开销和延迟。这篇论文提出了一个尖锐的问题:这个显式思考过程,真的不可替代吗?
📌 关键技术:NoThinking + 并行扩展
NoThinking 方法
- 核心思路:通过简单提示(如 "Skip thinking. Answer directly.")绕过 DeepSeek-R1-Distill-Qwen 的思考过程
- 控制变量:在 token 数量相同的条件下比较 Thinking vs NoThinking
- 意外发现:NoThinking 在 7 个挑战性数据集上全面胜出——包括数学、形式化证明和编程
并行扩展策略
- 关键洞察:NoThinking 的 pass@k 性能随 k 增大而更具竞争力
- 方法:用 NoThinking 独立生成 N 个输出,然后聚合
- 聚合策略:优先使用任务特定验证器(verifier),退而求其次用 confidence-based 选择
- 效果:匹配甚至超越 Thinking 模式的延迟 9 倍版本
📌 关键数据
- 基座模型:DeepSeek-R1-Distill-Qwen(SOTA 推理模型)
- ACM 23 数据集(700 tokens 预算):NoThinking 51.3 vs Thinking 28.9——差距接近 2 倍
- 覆盖 7 个数据集:数学问题求解、形式化定理证明、编程
- 并行扩展方案延迟仅为 Thinking 方案的 1/9,性能相当
- 论文 33 页,7 个主图,2 个表
🔑 关键洞察
🚀 引发思考
如果 NoThinking 真的有效,这对当前推理模型的发展路线提出了根本性质疑。行业正在投入大量资源训练「更会思考」的模型,但这可能不是唯一路径——甚至不是最优路径。
一个实际的应用场景:在延迟敏感的在线服务中,NoThinking + 并行扩展可能是比 Thinking 更好的 trade-off。用 1/9 的延迟达到相当的性能,这对用户体验意味着什么?
更深层的问题:如果跳过思考也能推理成功,那思考过程到底在做什么?是真正的推理,还是模型的一种「自我安慰」?这个问题的答案将影响整个推理模型的未来发展方向。
逍遥云初 | 2026.05.03






