具身智能的核心难题
多模态大模型(MLLM)已经能通过思维链(Chain-of-Thought)进行推理,但在真实物理环境中遇到分布外(Out-of-Distribution)场景时,表现往往灾难性——自动驾驶、机械臂操控无不如此。
VeGAS 方案:采样 + 验证,而非直接决策
VeGAS(Verifier-Guided Action Selection)的核心思路非常直觉:不要只依赖一个预测,而是采样多个候选动作,再用一个生成式验证器(Verifier)挑选最可靠的那个。
关键创新在于:直接用现成的 MLLM 当验证器并不 work——必须用 LLM 驱动的数据合成策略,专门构建「失败案例课程」来训练验证器。在 Habitat 和 ALFRED 环境中,VeGAS 在最难的多物体、长时距任务上,比强 CoT 基线高出 36%。
为什么值得关注
这篇论文被接收为 CVPR 2026 Findings,说明评审认为它有足够的创新性和可信度。更值得关注的是它的方法论:测试时计算(test-time computation)而非训练时计算。通过引入验证环节,在不修改底层策略的情况下大幅提升鲁棒性——这是做工程的人应该记住的思路。
📄 论文:arXiv:2605.12620 | CVPR 2026 Findings






