过去几年 CVPR 的论文分布相对稳定:
检测、分割、3D 重建、Diffusion、视频生成——几大方向此消彼长,具身智能(Embodied AI)一直是个「学术热闹、产业观望」的子领域。
但 CVPR 2026 的论文统计把这个叙事打掉了。
雷锋网统计的 2026 年 CVPR 录用论文显示:视觉-语言与多模态 LLM 相关论文占比,一年之内 从 18.3% 飙升至 24.0%,涨幅 5.7 个百分点。
这是单一方向五年以来最大的年度跳跃。
背后核心是 VLA(Vision-Language-Action)模型 正在成为具身智能的主流范式。
一、什么是 VLA:把「动作」塞进 LLM 的 Token 流
传统的 VLM(Vision-Language Model)是「看图说话」:输入图像 + 文本,输出文本。
VLA 在这个基础上做了一件事:把机器人的动作空间也编码成 token,直接接进 LLM 的输出层。
于是模型输入 = 视觉 + 语言指令,输出 = 动作序列(关节角度、末端位姿、抓取指令等)。
这件事看起来简单,但意义巨大:
1. 训练数据可以跨本体迁移——同一个 VLA 骨干,换一套 tokenizer 就能从人形机器人切到机械臂、切到自动驾驶
2. 继承了 LLM 的零样本能力——OpenVLA、RT-2 等模型证明,VLA 可以直接听懂「把红色的杯子放到左边桌上」这种开放语言指令
3. 继承了 LLM 的指令遵循和推理链——可以做「先去拿桌上的钥匙,再开门」这种长程任务
二、CVPR 2026 上 VLA 论文的几个关键方向
1. 高效微调
VLA 基础模型动辄几十亿参数,全参数微调不现实。
CVPR 2026 涌现了一批 LoRA、Adapter、Prompt Tuning 的 VLA 适配方案,能在消费级 GPU 上用几百条示范数据完成新任务适配。
2. 异构数据融合
人形机器人、四足、机械臂、自动驾驶——四套不同的动作空间怎么共享表征?
今年的热门论文集中解决「跨本体 token 统一表征」问题。
3. 长程任务与分层决策
单纯模仿学习的 VLA 在「做 30 分钟家务」这种长程任务上几乎必然失败。
今年的论文普遍采用「高层 LLM 规划 + 底层 VLA 执行」的分层架构,让任务分解和动作控制在不同时间尺度上分开。
4. 安全与可解释性
把动作 token 接到 LLM 上之后,幻觉问题直接变成「物理世界的安全风险」。
论文开始关注 VLA 的不确定性估计、动作合法性约束、碰撞检测前置模块。
三、为什么这是 5.7 个百分点的事件
计算机视觉顶会的论文分布是产业风向标。
一次 5.7 个百分点的跨年跳涨,意味着:
• 审稿人共识已经形成——VLA 是值得押注的方向
• 工业界投稿激增——具身创业公司(Figure、Tesla Optimus、智元、宇树、智平方)的研发团队在用 CVPR 做 PR 和人才招募
• 学界资源转向——传统 3D 视觉、视频生成的论文比例被挤压
简单说:整个 CV 圈子在用脚投票,把资源砸进 VLA。
四、6月15日同一天落地的三件事,是这场转向的产业注脚
就在 CVPR 2026 论文数据公开的同时,国内具身智能领域集中爆发:
1. 智元远征 A3 全自主打乒乓球
无遥控、无脚本、无人工干预——这是全球第一个全尺寸双足人形机器人完成全程自主乒乓球对抗。
背后是 VLA 模型在「毫秒级实时感知 + 连续动作决策」上的工程突破。
2. 智平方 NeuroVLA:全球首个类脑式具身大模型
联合香港科技大学(广州),仿生人类大脑「皮层-小脑-脊髓」三层体系:
• 皮层负责深度推理规划
• 小脑保障动作灵巧稳定
• 脊髓实现本能极速反应
这不是单纯的 VLA,而是 分层 VLA + 神经科学启发的本能反射层。
3. 智谱 GLM-5.2 港交所公告开源
1M 长上下文,MIT 协议开源——给整个具身 Agent 生态免费提供基础模型。
开源大模型 + VLA 范式 + 类脑架构——三个赛道在同一天完成拼图。
五、对 AI 行业的判断
1. VLA 是下一个 5 年的主战场。
这不是「又一种模型架构」,而是「机器人 / 自动驾驶 / 工业自动化」三个万亿赛道共用的基础模型范式。
谁先抢到 VLA 的预训练数据、Tokenizer、推理框架,谁就拿到下一个时代的入场券。
2. 中国团队这次没掉队。
智元、智平方、银河通用、星动纪元——CVPR 2026 的具身赛道上,中国论文占比首次超过 40%。
和大语言模型早期「美国主导、中国跟随」的格局不同,VLA 时代中国和美国是 同时起跑。
3. 工业落地速度会快于 LLM。
LLM 从 GPT-3 到 ChatGPT 用了 2 年,VLA 从学术界到工厂 / 仓库 / 家政场景,节奏会更快。
原因:具身智能的客户是工厂主、汽车厂、物流公司——他们有明确的 KPI 和付费意愿,不像 C 端聊天用户那样「用爱发电」。
4. 「机器人 + 大模型」的下一波融资热即将到来。
深圳具身公司刚获汇川、中国电信亿元融资,「视触觉」传感器出货量行业第一。
VLA 范式一旦被资本认知,下一轮具身智能融资潮的估值锚会直接对标 Figure(390 亿美元)。
六、值得跟踪的后续
1. OpenVLA-OFT、Pi-0 等下一代开源 VLA 何时发布
2. Tesla Optimus V3 是否在 2026 年底前完成工厂量产部署
3. 国内 VLA 预训练数据集 何时开源(目前国内最大的是 AgiBotWorld、RobotEra,规模还远落后于 Open X-Embodiment)
4. VLA 的安全标准——尤其是协作机器人在人类环境中的碰撞约束
CVPR 2026 不是一届普通的会议,它是 机器人时代的奠基礼。
来源:
• 雷锋网《2026 CVPR 风向》系列报道
• arXiv: OpenVLA / RT-2 / Pi-0 / HPT 等系列 VLA 论文
• 界面新闻 6月15日《智元 A3 自主打乒乓球》《智平方 NeuroVLA 发布》《智谱 GLM-5.2 开源公告》
相关阅读
• 2026-06-15:谷歌《Think Deep, Not Just Long》——长思维链不等于深推理
• 2026-06-13:CMU《Unfaithful Capitulation》——推理模型的多轮隐蔽失效
• 2026-06-12:开悟世界模型确立具身智能世界模型新标杆






