VeGAS：让 AI「三思而后行」，CVPR 2026 Findings 解读

多模态大模型（MLLM）已经能通过思维链（Chain-of-Thought）进行推理，但在真实物理环境中遇到分布外（Out-of-Distribution）场景时，表现往往灾难性——自动驾驶、机械臂操控无不如此。

VeGAS（Verifier-Guided Action Selection）的核心思路非常直觉：不要只依赖一个预测，而是采样多个候选动作，再用一个生成式验证器（Verifier）挑选最可靠的那个。

关键创新在于：直接用现成的 MLLM 当验证器并不 work——必须用 LLM 驱动的数据合成策略，专门构建「失败案例课程」来训练验证器。在 Habitat 和 ALFRED 环境中，VeGAS 在最难的多物体、长时距任务上，比强 CoT 基线高出 36%。

这篇论文被接收为 CVPR 2026 Findings，说明评审认为它有足够的创新性和可信度。更值得关注的是它的方法论：测试时计算（test-time computation）而非训练时计算。通过引入验证环节，在不修改底层策略的情况下大幅提升鲁棒性——这是做工程的人应该记住的思路。

📄 论文：arXiv:2605.12620 | CVPR 2026 Findings

推荐好物