arXiv深度 | 当推理不再「说」出来：Normalizing Flows让模型在潜在空间里悄悄思考

大模型推理能力的天花板，正在被一条新路径悄悄撬开。

过去两年，业内把「会思考」的模型等同于「会写出思考过程的模型」。Chain-of-Thought几乎成了推理的代名词——你必须让模型一步步把推理过程说出来，才换得到正确答案。

但来自6月初arXiv的《Latent Reasoning with Normalizing Flows》，把这套默契直接撕开了。

推理可以发生在潜在空间里。不写出来，照样能想清楚。

传统CoT走的是「离散文本路径」——模型要先token化思路，再逐步展开。链条越长，消耗越大，且每一步都可能因为采样偏差偏离正确方向。

新论文用Normalizing Flows（规范化流）做了一件不同的事：在连续的潜在空间里，把推理建模为一条可微的概率流路径——模型在向量空间里「流动」，找到答案，再一次性解码输出。

全程没有「思考过程」的外显，只有结果。

第一，效率的代际差。 文本CoT平均要生成几百到上千个推理token，消耗的算力和时延都是线性叠加。潜在空间推理等价于「一次性查表」，在数学证明、复杂规划等场景下，速度提升往往是一个数量级。

第二，错误累积被切断。 离散CoT的每一步都是一次采样，前一步错了，后一步几乎必然偏。潜在空间是连续优化路径，梯度信号贯穿全程，不会出现「链对答案错」的断点。

第三，可解释性的重构。 不再依赖「模型说了什么」，而是依赖「模型在向量空间的轨迹」。这打开了另一个维度的可解释性研究——人们终于不用盯着模型输出的文字做侦探了。

过去三年，推理模型的演进路线是「让模型说得更长、想得更细」。OpenAI o系列、Claude extended thinking、Gemini thinking mode，都在CoT框架里把链条做到极致。

Normalizing Flows的潜在推理，给出了一个完全不同的答案——推理不必外显，模型在向量空间里的「沉默计算」，可能比「长篇大论」更接近本质。

这意味着两件事：

对算力侧：同样的推理质量，token消耗可能下降10倍以上。推理侧的成本结构会被重写。

对应用侧：所有把「思考过程可视化」作为核心卖点的产品——无论是科研Agent、深度研究Copilot，还是带「思维展示」的对话产品——都将面临一次底层范式更新。

CoT不是推理的唯一解。它只是当前最显眼的那个。

下一个阶段的胜负手，可能在潜在空间里。

——

论文信息：Latent Reasoning with Normalizing Flows，arXiv 2026-06-06 收录。

推荐好物