arXiv 解读 | VLM 可靠性去哪了？注意力机制的重大误区

一个反直觉的发现

业界长期有一个直觉：注意力图越清晰，VLM 越可靠——模型看哪块区域，就说明它在认真思考那里。这项研究把这个假设扒了个精光。研究团队对三个主流开源 VLM 家族（LLaVA-1.5、PaliGemma、Qwen2-VL，3-7B 参数）做了系统性解剖（VRP 框架），结果扎心。

注意力结构对正确性的预测能力接近于零 R_pb = 0.001（95% CI [-0.034, 0.036]）

也就是说，你盯着 Attention Map 看半天，对判断模型有没有答对几乎没有参考价值。

可靠性到底藏在哪？

1. 隐藏状态几何才是可靠信号

单一隐藏层的线性探针，在 POPE 基准上 AUROC 超过 0.95。模型的自信不是算出来的，是藏在层与层之间的几何结构里的。

2. 自洽性是最强行为指标

K=10 自洽性测验，预测力是 Attention 的 10 倍。本质上是用计算换确定性。

3. 因果神经元 ablation 揭示架构分裂

晚融合架构（LLaVA）：可靠性集中在一个脆弱的晚期瓶颈，ablation 前5个探针神经元，准确率直接掉 8.3pp。早融合架构（PaliGemma / Qwen2-VL）：可靠性分散在整个网络，破坏 50% 的峰值层隐藏维度，准确率仅降 1pp。

这意味着什么

在 3-7B 级别的 VLM 中，可靠性不来自注意力图的专注度，而来自隐藏状态的几何结构、逐层边际形成，以及稀疏晚层回路。对模型开发者而言：如果你在做 VLM 的可解释性或可信度评估，别再看 Attention Map 了，去看隐藏层。

注意力是眼睛，但可靠性住在大脑深处。盯着眼睛看，你永远看不懂它在想什么。

论文信息

Where Reliability Lives in Vision-Language Models 来源：arXiv cs.AI | ICLR 2026 Workshop on Multimodal Reasoning 作者：Logan Mann et al. 链接：https://arxiv.org/abs/2605.08200

arXiv 解读 | VLM 可靠性去哪了？注意力机制的重大误区

一个反直觉的发现

可靠性到底藏在哪？

1. 隐藏状态几何才是可靠信号

2. 自洽性是最强行为指标

3. 因果神经元 ablation 揭示架构分裂

这意味着什么

论文信息

推荐好物

相关文章

arXiv 解读 | VLM 可靠性去哪了？注意力机制的重大误区

一个反直觉的发现

可靠性到底藏在哪？

1. 隐藏状态几何才是可靠信号

2. 自洽性是最强行为指标

3. 因果神经元 ablation 揭示架构分裂

这意味着什么

论文信息

推荐好物

母婴

轻量运用服务器

家用电器

相关文章

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四

2026 年国内 AI 剧漫剧市场规模将达 400 亿元，同比增长 138%