大模型推理能力的天花板,正在被一条新路径悄悄撬开。
过去两年,业内把「会思考」的模型等同于「会写出思考过程的模型」。Chain-of-Thought几乎成了推理的代名词——你必须让模型一步步把推理过程说出来,才换得到正确答案。
但来自6月初arXiv的《Latent Reasoning with Normalizing Flows》,把这套默契直接撕开了。
一句话的颠覆
推理可以发生在潜在空间里。不写出来,照样能想清楚。
传统CoT走的是「离散文本路径」——模型要先token化思路,再逐步展开。链条越长,消耗越大,且每一步都可能因为采样偏差偏离正确方向。
新论文用Normalizing Flows(规范化流)做了一件不同的事:在连续的潜在空间里,把推理建模为一条可微的概率流路径——模型在向量空间里「流动」,找到答案,再一次性解码输出。
全程没有「思考过程」的外显,只有结果。
为什么这条路径值得认真看
第一,效率的代际差。 文本CoT平均要生成几百到上千个推理token,消耗的算力和时延都是线性叠加。潜在空间推理等价于「一次性查表」,在数学证明、复杂规划等场景下,速度提升往往是一个数量级。
第二,错误累积被切断。 离散CoT的每一步都是一次采样,前一步错了,后一步几乎必然偏。潜在空间是连续优化路径,梯度信号贯穿全程,不会出现「链对答案错」的断点。
第三,可解释性的重构。 不再依赖「模型说了什么」,而是依赖「模型在向量空间的轨迹」。这打开了另一个维度的可解释性研究——人们终于不用盯着模型输出的文字做侦探了。
这件事对行业的真正含义
过去三年,推理模型的演进路线是「让模型说得更长、想得更细」。OpenAI o系列、Claude extended thinking、Gemini thinking mode,都在CoT框架里把链条做到极致。
Normalizing Flows的潜在推理,给出了一个完全不同的答案——推理不必外显,模型在向量空间里的「沉默计算」,可能比「长篇大论」更接近本质。
这意味着两件事:
对算力侧:同样的推理质量,token消耗可能下降10倍以上。推理侧的成本结构会被重写。
对应用侧:所有把「思考过程可视化」作为核心卖点的产品——无论是科研Agent、深度研究Copilot,还是带「思维展示」的对话产品——都将面临一次底层范式更新。
CoT不是推理的唯一解。它只是当前最显眼的那个。
下一个阶段的胜负手,可能在潜在空间里。
——
论文信息:Latent Reasoning with Normalizing Flows,arXiv 2026-06-06 收录。






