核心发现
- LLM在最短路径任务上表现出强空间迁移能力,但在任务步数变长时一致失败(长度缩放失败)——这是LLM的「短视困境」。
- 强化学习提升训练稳定性,但不扩展能力边界——RL让训练更顺滑,却无法突破模型的先天限制。
- 推理时Scaling(增加计算量)同样无法拯救长度泛化失败——更大的推理预算救不了短视的架构。
研究背景:为什么这个问题重要
过去几年,LLM在代码生成、数学推理、多跳问答等任务上取得了惊人的进展。然而,一项来自Google DeepMind的前沿研究(arXiv:2604.15306,2026年4月)揭示了一个被广泛忽视的系统性缺陷:模型在步数较短的任务上表现出色,甚至能将在一个领域学到的推理模式迁移到另一个领域(空间迁移能力强),但当任务所需推理步数增加时,性能一致性地崩塌。
这不仅仅是「任务变难了」这么简单。传统观点认为,只要给模型更多数据、更多参数、更多训练时间,长度泛化问题自然会消失。但这项研究的结论要悲观得多:长度缩放失败不是偶发现象,而是LLM架构层面的系统性产物。
深度解读:短视困境的三层含义
1. 空间迁移 ≠ 步数迁移
研究最引人深思的发现之一,是LLM展现了独特的「非对称迁移能力」:它们可以在不同空间/领域之间迁移推理模式(从地理导航迁移到知识图谱推理),但无法在推理步数维度上迁移。这意味着一个在5步推理任务上训练好的模型,并不会自动「理解」10步推理任务的解法——它需要针对更长步数专门训练,而这通常意味着新的数据、新的对齐。
2. RL是稳定器,而非能力边界扩展器
强化学习(RL)已被广泛用于LLM的后训练对齐(如RLHF、DPO等)。研究证实,RL确实能显著提升训练过程的稳定性——减少分布外(OOD)情况下的崩溃风险,让模型在长序列生成时更一致、更可控。然而,研究同时指出一个令人警醒的结论:RL的这些改进是在「能力天花板」之内的优化,它并不抬升天花板本身。换句话说,RL让模型更好地发挥既有能力,但不解决「既有能力有限」的根本问题。
3. 推理时Scaling的幻觉
o1、Claude 3.5等模型引入了推理时计算扩展(Test-time Compute Scaling)的范式:通过在推理阶段投入更多token预算,让模型「思考更久」,以提升复杂任务表现。这一范式在简单到中等复杂度任务上确实有效。然而,这项研究表明,对于纯粹的长度泛化失败,推理时Scaling也无济于事——不是因为计算量不够,而是因为模型根本无法从错误的长序列分布中「走出来」。这是架构性缺陷,计算资源无法弥补。
对实践的冲击:哪些场景最危险
这项研究的结论对AI应用落地有直接的现实意义。以下场景在当前LLM架构下风险最高:
- 复杂代码生成:需要数十步逻辑链,任何一步断裂都会导致整个程序失效
- 长程数学证明:每一步推导依赖前序结论,中间断裂即全盘崩溃
- 多跳文档分析:需要跨章节、跨文档维持上下文一致性
- 复杂Agent任务:步数随任务规模非线性增长,长度泛化失败概率急剧上升
展望:出路在何方?
研究本身没有给出完整的解决方案,但指向了几个有前景的方向:一是重新审视Transformer架构在长序列建模上的根本局限,探索Recurrent或State-Space混合架构;二是开发专门针对步数泛化的训练范式,而非仅依赖Next-Token Prediction;三是引入外部记忆机制,让模型在长序列任务中依赖外部存储而非内部上下文。
无论哪条路,有一点是确定的:LLM的「短视困境」揭示了一个被Scaling Laws叙事掩盖已久的问题——规模不是万能药,架构创新才是根本。2026年的AI进展或许正在从「大力出奇迹」的时代,向「精细化推理架构」的时代转折。
来源
arXiv:2604.15306,Google DeepMind团队,2026年4月https://arxiv.org/abs/2604.15306





