大模型推理能力的天花板,正在被一条新路径悄悄撬开。

过去两年,业内把「会思考」的模型等同于「会写出思考过程的模型」。Chain-of-Thought几乎成了推理的代名词——你必须让模型一步步把推理过程说出来,才换得到正确答案。

但来自6月初arXiv的《Latent Reasoning with Normalizing Flows》,把这套默契直接撕开了。

一句话的颠覆

推理可以发生在潜在空间里。不写出来,照样能想清楚。

传统CoT走的是「离散文本路径」——模型要先token化思路,再逐步展开。链条越长,消耗越大,且每一步都可能因为采样偏差偏离正确方向。

新论文用Normalizing Flows(规范化流)做了一件不同的事:在连续的潜在空间里,把推理建模为一条可微的概率流路径——模型在向量空间里「流动」,找到答案,再一次性解码输出。

全程没有「思考过程」的外显,只有结果。

为什么这条路径值得认真看

第一,效率的代际差。 文本CoT平均要生成几百到上千个推理token,消耗的算力和时延都是线性叠加。潜在空间推理等价于「一次性查表」,在数学证明、复杂规划等场景下,速度提升往往是一个数量级。

第二,错误累积被切断。 离散CoT的每一步都是一次采样,前一步错了,后一步几乎必然偏。潜在空间是连续优化路径,梯度信号贯穿全程,不会出现「链对答案错」的断点。

第三,可解释性的重构。 不再依赖「模型说了什么」,而是依赖「模型在向量空间的轨迹」。这打开了另一个维度的可解释性研究——人们终于不用盯着模型输出的文字做侦探了。

这件事对行业的真正含义

过去三年,推理模型的演进路线是「让模型说得更长、想得更细」。OpenAI o系列、Claude extended thinking、Gemini thinking mode,都在CoT框架里把链条做到极致。

Normalizing Flows的潜在推理,给出了一个完全不同的答案——推理不必外显,模型在向量空间里的「沉默计算」,可能比「长篇大论」更接近本质。

这意味着两件事:

对算力侧:同样的推理质量,token消耗可能下降10倍以上。推理侧的成本结构会被重写。

对应用侧:所有把「思考过程可视化」作为核心卖点的产品——无论是科研Agent、深度研究Copilot,还是带「思维展示」的对话产品——都将面临一次底层范式更新。

CoT不是推理的唯一解。它只是当前最显眼的那个。

下一个阶段的胜负手,可能在潜在空间里。

——

论文信息:Latent Reasoning with Normalizing Flows,arXiv 2026-06-06 收录。