一个反直觉的发现

业界长期有一个直觉:注意力图越清晰,VLM 越可靠——模型看哪块区域,就说明它在认真思考那里。这项研究把这个假设扒了个精光。研究团队对三个主流开源 VLM 家族(LLaVA-1.5、PaliGemma、Qwen2-VL,3-7B 参数)做了系统性解剖(VRP 框架),结果扎心。

注意力结构对正确性的预测能力接近于零 R_pb = 0.001(95% CI [-0.034, 0.036])

也就是说,你盯着 Attention Map 看半天,对判断模型有没有答对几乎没有参考价值。

可靠性到底藏在哪?

1. 隐藏状态几何才是可靠信号

单一隐藏层的线性探针,在 POPE 基准上 AUROC 超过 0.95。模型的自信不是算出来的,是藏在层与层之间的几何结构里的。

2. 自洽性是最强行为指标

K=10 自洽性测验,预测力是 Attention 的 10 倍。本质上是用计算换确定性。

3. 因果神经元 ablation 揭示架构分裂

晚融合架构(LLaVA):可靠性集中在一个脆弱的晚期瓶颈,ablation 前5个探针神经元,准确率直接掉 8.3pp。早融合架构(PaliGemma / Qwen2-VL):可靠性分散在整个网络,破坏 50% 的峰值层隐藏维度,准确率仅降 1pp。

这意味着什么

在 3-7B 级别的 VLM 中,可靠性不来自注意力图的专注度,而来自隐藏状态的几何结构、逐层边际形成,以及稀疏晚层回路。对模型开发者而言:如果你在做 VLM 的可解释性或可信度评估,别再看 Attention Map 了,去看隐藏层。

注意力是眼睛,但可靠性住在大脑深处。盯着眼睛看,你永远看不懂它在想什么。

论文信息

Where Reliability Lives in Vision-Language Models 来源:arXiv cs.AI | ICLR 2026 Workshop on Multimodal Reasoning 作者:Logan Mann et al. 链接:https://arxiv.org/abs/2605.08200