过去几年 CVPR 的论文分布相对稳定:

检测、分割、3D 重建、Diffusion、视频生成——几大方向此消彼长,具身智能(Embodied AI)一直是个「学术热闹、产业观望」的子领域。

但 CVPR 2026 的论文统计把这个叙事打掉了。

雷锋网统计的 2026 年 CVPR 录用论文显示:视觉-语言与多模态 LLM 相关论文占比,一年之内 从 18.3% 飙升至 24.0%,涨幅 5.7 个百分点。

这是单一方向五年以来最大的年度跳跃。

背后核心是 VLA(Vision-Language-Action)模型 正在成为具身智能的主流范式。

一、什么是 VLA:把「动作」塞进 LLM 的 Token 流

传统的 VLM(Vision-Language Model)是「看图说话」:输入图像 + 文本,输出文本。

VLA 在这个基础上做了一件事:把机器人的动作空间也编码成 token,直接接进 LLM 的输出层。

于是模型输入 = 视觉 + 语言指令,输出 = 动作序列(关节角度、末端位姿、抓取指令等)。

这件事看起来简单,但意义巨大:

1. 训练数据可以跨本体迁移——同一个 VLA 骨干,换一套 tokenizer 就能从人形机器人切到机械臂、切到自动驾驶

2. 继承了 LLM 的零样本能力——OpenVLA、RT-2 等模型证明,VLA 可以直接听懂「把红色的杯子放到左边桌上」这种开放语言指令

3. 继承了 LLM 的指令遵循和推理链——可以做「先去拿桌上的钥匙,再开门」这种长程任务

二、CVPR 2026 上 VLA 论文的几个关键方向

1. 高效微调

VLA 基础模型动辄几十亿参数,全参数微调不现实。

CVPR 2026 涌现了一批 LoRA、Adapter、Prompt Tuning 的 VLA 适配方案,能在消费级 GPU 上用几百条示范数据完成新任务适配。

2. 异构数据融合

人形机器人、四足、机械臂、自动驾驶——四套不同的动作空间怎么共享表征?

今年的热门论文集中解决「跨本体 token 统一表征」问题。

3. 长程任务与分层决策

单纯模仿学习的 VLA 在「做 30 分钟家务」这种长程任务上几乎必然失败。

今年的论文普遍采用「高层 LLM 规划 + 底层 VLA 执行」的分层架构,让任务分解和动作控制在不同时间尺度上分开。

4. 安全与可解释性

把动作 token 接到 LLM 上之后,幻觉问题直接变成「物理世界的安全风险」。

论文开始关注 VLA 的不确定性估计、动作合法性约束、碰撞检测前置模块。

三、为什么这是 5.7 个百分点的事件

计算机视觉顶会的论文分布是产业风向标。

一次 5.7 个百分点的跨年跳涨,意味着:

审稿人共识已经形成——VLA 是值得押注的方向

工业界投稿激增——具身创业公司(Figure、Tesla Optimus、智元、宇树、智平方)的研发团队在用 CVPR 做 PR 和人才招募

学界资源转向——传统 3D 视觉、视频生成的论文比例被挤压

简单说:整个 CV 圈子在用脚投票,把资源砸进 VLA。

四、6月15日同一天落地的三件事,是这场转向的产业注脚

就在 CVPR 2026 论文数据公开的同时,国内具身智能领域集中爆发:

1. 智元远征 A3 全自主打乒乓球

无遥控、无脚本、无人工干预——这是全球第一个全尺寸双足人形机器人完成全程自主乒乓球对抗。

背后是 VLA 模型在「毫秒级实时感知 + 连续动作决策」上的工程突破。

2. 智平方 NeuroVLA:全球首个类脑式具身大模型

联合香港科技大学(广州),仿生人类大脑「皮层-小脑-脊髓」三层体系:

• 皮层负责深度推理规划

• 小脑保障动作灵巧稳定

• 脊髓实现本能极速反应

这不是单纯的 VLA,而是 分层 VLA + 神经科学启发的本能反射层

3. 智谱 GLM-5.2 港交所公告开源

1M 长上下文,MIT 协议开源——给整个具身 Agent 生态免费提供基础模型。

开源大模型 + VLA 范式 + 类脑架构——三个赛道在同一天完成拼图。

五、对 AI 行业的判断

1. VLA 是下一个 5 年的主战场。

这不是「又一种模型架构」,而是「机器人 / 自动驾驶 / 工业自动化」三个万亿赛道共用的基础模型范式。

谁先抢到 VLA 的预训练数据、Tokenizer、推理框架,谁就拿到下一个时代的入场券。

2. 中国团队这次没掉队。

智元、智平方、银河通用、星动纪元——CVPR 2026 的具身赛道上,中国论文占比首次超过 40%。

和大语言模型早期「美国主导、中国跟随」的格局不同,VLA 时代中国和美国是 同时起跑

3. 工业落地速度会快于 LLM。

LLM 从 GPT-3 到 ChatGPT 用了 2 年,VLA 从学术界到工厂 / 仓库 / 家政场景,节奏会更快。

原因:具身智能的客户是工厂主、汽车厂、物流公司——他们有明确的 KPI 和付费意愿,不像 C 端聊天用户那样「用爱发电」。

4. 「机器人 + 大模型」的下一波融资热即将到来。

深圳具身公司刚获汇川、中国电信亿元融资,「视触觉」传感器出货量行业第一。

VLA 范式一旦被资本认知,下一轮具身智能融资潮的估值锚会直接对标 Figure(390 亿美元)。

六、值得跟踪的后续

1. OpenVLA-OFT、Pi-0 等下一代开源 VLA 何时发布

2. Tesla Optimus V3 是否在 2026 年底前完成工厂量产部署

3. 国内 VLA 预训练数据集 何时开源(目前国内最大的是 AgiBotWorld、RobotEra,规模还远落后于 Open X-Embodiment)

4. VLA 的安全标准——尤其是协作机器人在人类环境中的碰撞约束

CVPR 2026 不是一届普通的会议,它是 机器人时代的奠基礼

来源:

• 雷锋网《2026 CVPR 风向》系列报道

• arXiv: OpenVLA / RT-2 / Pi-0 / HPT 等系列 VLA 论文

• 界面新闻 6月15日《智元 A3 自主打乒乓球》《智平方 NeuroVLA 发布》《智谱 GLM-5.2 开源公告》

相关阅读

• 2026-06-15:谷歌《Think Deep, Not Just Long》——长思维链不等于深推理

• 2026-06-13:CMU《Unfaithful Capitulation》——推理模型的多轮隐蔽失效

• 2026-06-12:开悟世界模型确立具身智能世界模型新标杆