【arXiv深度解读】大模型视觉注意力衰退难题被破解：PVM如何让LVLMs持续看清

一篇论文，两种意义

大模型在生成长文本时，视觉注意力会逐渐衰减——这个问题有一个名字，叫"视觉信号稀释"（Visual Signal Dilution）。5月1日，一篇新论文提出了解决方案：Persistent Visual Memory（PVM）。这篇论文的核心发现是：随着生成序列变长，文本历史会"抢占"注意力配额，导致视觉信息被持续稀释，模型越往后看图越糊。PVM的解法是引入一个轻量可学习的模块，在FFN旁边并联一条与生成长度无关的视觉检索通道，让模型随时能精准调取最初始的视觉输入。

技术细节：不增加多少参数，却能补上性能短板

论文来自国内团队（Siyuan Huang、Yafu Li等），在Qwen3-VL的4B和8B模型上做了验证。关键数据：平均精度提升显著，尤其是需要"持续视觉推理"的复杂任务。 PVM的核心设计是作为并联分支嵌入FFN层，不改变原有模型结构，参数增量可以忽略。这对于部署友好型的实际应用至关重要。

论文：Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs
arXiv：2605.00814 | 作者：Siyuan Huang、Yafu Li等 | 2026-05-01
方向：cs.CV / cs.AI | 模型：Qwen3-VL（4B/8B）验证

为什么这件事值得关注

"看图说话"类应用正在成为LVLMs的核心场景。当用户要求"根据图片写一篇3000字分析"时，模型越往后越"看不见"图——这在产品层面是真实存在的痛点。 PVM的价值在于，它不是换了一个更大的模型，而是在不显著增加计算开销的前提下，解决了架构层面的根本性缺陷。如果这个方案被广泛采用，多模态长文本生成的质量将普遍提升。当然，这仍然是单模型改进。最终谁能跑出来，还要看谁能把这套方案和推理效率、工程部署综合做好。

论文链接：https://arxiv.org/abs/2605.00814

【arXiv深度解读】大模型视觉注意力衰退难题被破解：PVM如何让LVLMs持续看清

一篇论文，两种意义

技术细节：不增加多少参数，却能补上性能短板

为什么这件事值得关注

推荐好物

相关文章

【arXiv深度解读】大模型视觉注意力衰退难题被破解：PVM如何让LVLMs持续看清

一篇论文，两种意义

技术细节：不增加多少参数，却能补上性能短板

为什么这件事值得关注

推荐好物

家用电器

语言产品特惠

家居日用

相关文章

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四

2026 年国内 AI 剧漫剧市场规模将达 400 亿元，同比增长 138%