正文
在通用机器人操作任务中,视觉-语言-动作(VLA)模型已成为核心的通用策略方案。传统VLA模型依赖预训练视觉-语言模型将视觉、语言输入直接映射为机器人动作,但始终存在一个行业痛点——语义-运动学鸿沟:高层抽象的感知推理与低层精准的动作执行脱节。 这篇论文提出一个根本性问题:为什么机器人不能直接用「动作」思考? 核心创新:动作思维链(ACoT) 来自北航、AgiBot的团队提出ACoT-VLA框架,创新性地将推理过程从「语言/视觉空间」转移到动作空间,让机器人直接用「动作序列」思考,而非先想语言再看画面。 该框架包含两个核心模块: 1. 显式动作推理器(EAR):基于Transformer生成粗粒度参考动作轨迹,为最终动作预测提供可直接复用的运动线索 2. 隐式动作推理器(IAR):从VLM内部特征中提取隐式动作先验,为动作预测提供行为约束 最终通过动作引导预测头(AGP)融合两种指导,输出可执行动作序列。 实验结果:三大基准SOTA - LIBERO基准:平均成功率98.5%,四项子任务全部第一 - LIBERO-Plus基准:面对相机偏移、传感器噪声等7类扰动,平均成功率84.1% - VLABench基准:未见纹理、跨类别场景下泛化性大幅提升 - 真实机器人:在AgiBot G1、AgileX上完成擦污渍、倒水等任务,平均成功率66.7% 观点 这篇论文的价值在于它提出了一个范式转变:机器人推理不应该在语言空间或视觉空间中完成,而应该在动作空间中完成。这与人类的行为模式高度一致——我们学会一个新技能时,不是先想好每一步的语言描述,而是直接用身体「记住」动作序列。 代码已开源:https://github.com/AgibotTech/ACoT-VLA






