【论文解读】ACoT-VLA：让机器人用「动作」思考，CVPR 2026 突破VLA模型语义-运动学鸿沟

正文

在通用机器人操作任务中，视觉-语言-动作（VLA）模型已成为核心的通用策略方案。传统VLA模型依赖预训练视觉-语言模型将视觉、语言输入直接映射为机器人动作，但始终存在一个行业痛点——语义-运动学鸿沟：高层抽象的感知推理与低层精准的动作执行脱节。这篇论文提出一个根本性问题：为什么机器人不能直接用「动作」思考？核心创新：动作思维链（ACoT）来自北航、AgiBot的团队提出ACoT-VLA框架，创新性地将推理过程从「语言/视觉空间」转移到动作空间，让机器人直接用「动作序列」思考，而非先想语言再看画面。该框架包含两个核心模块： 1. 显式动作推理器（EAR）：基于Transformer生成粗粒度参考动作轨迹，为最终动作预测提供可直接复用的运动线索 2. 隐式动作推理器（IAR）：从VLM内部特征中提取隐式动作先验，为动作预测提供行为约束最终通过动作引导预测头（AGP）融合两种指导，输出可执行动作序列。实验结果：三大基准SOTA - LIBERO基准：平均成功率98.5%，四项子任务全部第一 - LIBERO-Plus基准：面对相机偏移、传感器噪声等7类扰动，平均成功率84.1% - VLABench基准：未见纹理、跨类别场景下泛化性大幅提升 - 真实机器人：在AgiBot G1、AgileX上完成擦污渍、倒水等任务，平均成功率66.7% 观点这篇论文的价值在于它提出了一个范式转变：机器人推理不应该在语言空间或视觉空间中完成，而应该在动作空间中完成。这与人类的行为模式高度一致——我们学会一个新技能时，不是先想好每一步的语言描述，而是直接用身体「记住」动作序列。代码已开源：https://github.com/AgibotTech/ACoT-VLA

来源链接

https://arxiv.org/abs/2601.11404

【论文解读】ACoT-VLA：让机器人用「动作」思考，CVPR 2026 突破VLA模型语义-运动学鸿沟

正文

来源链接

推荐好物

相关文章

【论文解读】ACoT-VLA：让机器人用「动作」思考，CVPR 2026 突破VLA模型语义-运动学鸿沟

正文

来源链接

推荐好物

母婴

语言产品特惠

游戏服专属特惠

相关文章

AI科技前沿快讯｜2026年7月29日

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四