arXiv 深度 | CVPR 2026 风向突变：视觉-语言-动作模型正在吃下整个机器人赛道

过去几年 CVPR 的论文分布相对稳定：

检测、分割、3D 重建、Diffusion、视频生成——几大方向此消彼长，具身智能（Embodied AI）一直是个「学术热闹、产业观望」的子领域。

但 CVPR 2026 的论文统计把这个叙事打掉了。

雷锋网统计的 2026 年 CVPR 录用论文显示：视觉-语言与多模态 LLM 相关论文占比，一年之内 从 18.3% 飙升至 24.0%，涨幅 5.7 个百分点。

这是单一方向五年以来最大的年度跳跃。

背后核心是 VLA（Vision-Language-Action）模型 正在成为具身智能的主流范式。

一、什么是 VLA：把「动作」塞进 LLM 的 Token 流

传统的 VLM（Vision-Language Model）是「看图说话」：输入图像 + 文本，输出文本。

VLA 在这个基础上做了一件事：把机器人的动作空间也编码成 token，直接接进 LLM 的输出层。

于是模型输入 = 视觉 + 语言指令，输出 = 动作序列（关节角度、末端位姿、抓取指令等）。

这件事看起来简单，但意义巨大：

1. 训练数据可以跨本体迁移——同一个 VLA 骨干，换一套 tokenizer 就能从人形机器人切到机械臂、切到自动驾驶

2. 继承了 LLM 的零样本能力——OpenVLA、RT-2 等模型证明，VLA 可以直接听懂「把红色的杯子放到左边桌上」这种开放语言指令

3. 继承了 LLM 的指令遵循和推理链——可以做「先去拿桌上的钥匙，再开门」这种长程任务

二、CVPR 2026 上 VLA 论文的几个关键方向

1. 高效微调

VLA 基础模型动辄几十亿参数，全参数微调不现实。

CVPR 2026 涌现了一批 LoRA、Adapter、Prompt Tuning 的 VLA 适配方案，能在消费级 GPU 上用几百条示范数据完成新任务适配。

2. 异构数据融合

人形机器人、四足、机械臂、自动驾驶——四套不同的动作空间怎么共享表征？

今年的热门论文集中解决「跨本体 token 统一表征」问题。

3. 长程任务与分层决策

单纯模仿学习的 VLA 在「做 30 分钟家务」这种长程任务上几乎必然失败。

今年的论文普遍采用「高层 LLM 规划 + 底层 VLA 执行」的分层架构，让任务分解和动作控制在不同时间尺度上分开。

4. 安全与可解释性

把动作 token 接到 LLM 上之后，幻觉问题直接变成「物理世界的安全风险」。

论文开始关注 VLA 的不确定性估计、动作合法性约束、碰撞检测前置模块。

三、为什么这是 5.7 个百分点的事件

计算机视觉顶会的论文分布是产业风向标。

一次 5.7 个百分点的跨年跳涨，意味着：

• 审稿人共识已经形成——VLA 是值得押注的方向

• 工业界投稿激增——具身创业公司（Figure、Tesla Optimus、智元、宇树、智平方）的研发团队在用 CVPR 做 PR 和人才招募

• 学界资源转向——传统 3D 视觉、视频生成的论文比例被挤压

简单说：整个 CV 圈子在用脚投票，把资源砸进 VLA。

四、6月15日同一天落地的三件事，是这场转向的产业注脚

就在 CVPR 2026 论文数据公开的同时，国内具身智能领域集中爆发：

1. 智元远征 A3 全自主打乒乓球

无遥控、无脚本、无人工干预——这是全球第一个全尺寸双足人形机器人完成全程自主乒乓球对抗。

背后是 VLA 模型在「毫秒级实时感知 + 连续动作决策」上的工程突破。

2. 智平方 NeuroVLA：全球首个类脑式具身大模型

联合香港科技大学（广州），仿生人类大脑「皮层-小脑-脊髓」三层体系：

• 皮层负责深度推理规划

• 小脑保障动作灵巧稳定

• 脊髓实现本能极速反应

这不是单纯的 VLA，而是 分层 VLA + 神经科学启发的本能反射层。

3. 智谱 GLM-5.2 港交所公告开源

1M 长上下文，MIT 协议开源——给整个具身 Agent 生态免费提供基础模型。

开源大模型 + VLA 范式 + 类脑架构——三个赛道在同一天完成拼图。

五、对 AI 行业的判断

1. VLA 是下一个 5 年的主战场。

这不是「又一种模型架构」，而是「机器人 / 自动驾驶 / 工业自动化」三个万亿赛道共用的基础模型范式。

谁先抢到 VLA 的预训练数据、Tokenizer、推理框架，谁就拿到下一个时代的入场券。

2. 中国团队这次没掉队。

智元、智平方、银河通用、星动纪元——CVPR 2026 的具身赛道上，中国论文占比首次超过 40%。

和大语言模型早期「美国主导、中国跟随」的格局不同，VLA 时代中国和美国是 同时起跑。

3. 工业落地速度会快于 LLM。

LLM 从 GPT-3 到 ChatGPT 用了 2 年，VLA 从学术界到工厂 / 仓库 / 家政场景，节奏会更快。

原因：具身智能的客户是工厂主、汽车厂、物流公司——他们有明确的 KPI 和付费意愿，不像 C 端聊天用户那样「用爱发电」。

4. 「机器人 + 大模型」的下一波融资热即将到来。

深圳具身公司刚获汇川、中国电信亿元融资，「视触觉」传感器出货量行业第一。

VLA 范式一旦被资本认知，下一轮具身智能融资潮的估值锚会直接对标 Figure（390 亿美元）。

六、值得跟踪的后续

1. OpenVLA-OFT、Pi-0 等下一代开源 VLA 何时发布

2. Tesla Optimus V3 是否在 2026 年底前完成工厂量产部署

3. 国内 VLA 预训练数据集 何时开源（目前国内最大的是 AgiBotWorld、RobotEra，规模还远落后于 Open X-Embodiment）

4. VLA 的安全标准——尤其是协作机器人在人类环境中的碰撞约束

CVPR 2026 不是一届普通的会议，它是 机器人时代的奠基礼。

来源：

• 雷锋网《2026 CVPR 风向》系列报道

• arXiv: OpenVLA / RT-2 / Pi-0 / HPT 等系列 VLA 论文

• 界面新闻 6月15日《智元 A3 自主打乒乓球》《智平方 NeuroVLA 发布》《智谱 GLM-5.2 开源公告》

arXiv 深度 | CVPR 2026 风向突变：视觉-语言-动作模型正在吃下整个机器人赛道

一、什么是 VLA：把「动作」塞进 LLM 的 Token 流

二、CVPR 2026 上 VLA 论文的几个关键方向

三、为什么这是 5.7 个百分点的事件

四、6月15日同一天落地的三件事，是这场转向的产业注脚

五、对 AI 行业的判断

六、值得跟踪的后续

相关阅读

推荐好物

相关文章

arXiv 深度 | CVPR 2026 风向突变：视觉-语言-动作模型正在吃下整个机器人赛道

一、什么是 VLA：把「动作」塞进 LLM 的 Token 流

二、CVPR 2026 上 VLA 论文的几个关键方向

三、为什么这是 5.7 个百分点的事件

四、6月15日同一天落地的三件事，是这场转向的产业注脚

五、对 AI 行业的判断

六、值得跟踪的后续

相关阅读

推荐好物

女装

音视频通讯

音视频低代码

相关文章

AI科技前沿快讯｜2026年7月29日

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四