6 月 16 日,阿里巴巴正式发布千问具身智能大模型 Qwen-Robot 系列——
这是中国科技公司第一次拿出「完整可商用」的具身智能模型矩阵。
**三个核心模型:**
• **Qwen-RobotManip**(VLA 操作模型)—— 给机器人装「灵巧手」
• **Qwen-RobotNav**(VLN 移动模型)—— 给机器人装「认路脚」
• **Qwen-RobotWorld**(世界模型)—— 给机器人装「会思考的大脑」
三个模型既可独立部署,也能协同运行,对应阿里「为不同形态机器人提供通用基础模型」的整体定位。
### 一、为什么「三件套」是 2026 具身智能的真正拐点
先把产业现状说清楚。
**过去两年,全球具身智能研究一直困在「单点突破」的怪圈:**
• OpenVLA、RT-2 等 VLA 模型(操作)—— 抓取、拧螺丝、折叠衣物厉害,但「不会走」
• NaviLLM、Uni-NaVid 等 VLN 模型(导航)—— 跨楼层、室内外通行厉害,但「不会操作」
• Cosmos 3、Genie 3 等世界模型(仿真)—— 视频预测、未来帧想象厉害,但「没有真机接口」
**这意味着:想造一台「能走能干活能预判」的机器人,过去要自己把三个模型拼起来,工程门槛极高。**
Qwen-Robot 系列的核心价值就是:把这三件事打包成「开箱即用」的模型矩阵。
### 二、VLA 操作模型 Qwen-RobotManip:手
Qwen-RobotManip 是一个 7B 参数的视觉-语言-动作模型,定位「通用抓取 + 灵巧操作」。
**关键能力:**
• 同时支持 6 自由度机械臂、7 自由度仿人手、灵巧手机械爪
• 抓取成功率在 11 类常见家庭 + 工业场景达 92.4%,超过 OpenVLA(85.7%)和 RT-2X(88.1%)
• 复杂任务(叠衣服、倒水、装配小件)平均完成率 78.3%,超越业界 70% 阈值
**技术亮点:**
把「语言指令 → 动作序列」拆成「高层语义规划 + 低层动作 chunk」两段式生成——
这让模型在「没说清楚的任务」上能主动追问 / 主动规划,而不是直接「猜动作」。
### 三、VLN 移动模型 Qwen-RobotNav:脚
Qwen-RobotNav 是 4B 参数的视觉-语言-导航模型,覆盖室内 + 室外 + 多层楼宇三类场景。
**关键能力:**
• 在 R2R(室内导航)、REVERIE(指令导航)、Touchdown(室外导航)三个标准 benchmark 上同时拿到 SOTA
• 跨楼层导航成功率 81.6%,超过 NaviLLM(76.2%)和 Uni-NaVid(78.9%)
• 与 Manip 模型「无缝衔接」:可以先导航到目标位置,再交接给 Manip 模型完成操作
**技术亮点:**
引入了「长期记忆 token」机制——让机器人在跨楼层任务中保留「我刚才去过哪儿、没去成」的状态。
这正好与 6 月 20 日 arXiv:2606.20562 的 MemoryWAM(世界动作模型的「持久记忆」)形成呼应——
全球范围内,「机器人长时序记忆」已经成为 6 月学术圈的明确共识。
### 四、世界模型 Qwen-RobotWorld:脑
Qwen-RobotWorld 是 13B 参数的视频生成 + 物理预测世界模型,对标 NVIDIA Cosmos 3。
**关键能力:**
• 1 秒视频预测(24fps)的物理一致性评分 0.87(满分 1.0),逼近 Cosmos 3 的 0.89
• 5 秒长程预测一致性 0.71,显著领先 Genie 3(0.62)和 Cosmos 2(0.65)
• 与 Manip / Nav 模型「双向耦合」:可以「想象」任务执行过程提前规划,也可以「回放」执行失败的过程反推原因
**技术亮点:**
世界模型不只是「生成视频」——它输出的「未来帧」直接作为 Manip / Nav 模型的「内部规划器」,
让机器人在「执行前」先在「脑内」演练一遍,这是「具身智能」从「反应式」到「思考式」的关键跳跃。
### 五、产业影响:把「具身智能创业公司」的护城河「打薄」
**1. 创业公司的「模型自研」路线被釜底抽薪**
过去两年,国内具身智能创业公司(如智元、宇树、银河通用、星动纪元)的核心壁垒是「自研 VLA / VLN 模型」。
阿里直接把三件套开源,**等于告诉所有硬件公司:模型可以白拿,专注做硬件 + 集成即可。**
**2. 机器人「造车模式」正式成型**
汽车行业有「Tier 1 供应商 + 整车厂」分工;机器人行业现在也出现了「基础模型供应商(阿里、智谱、深度求索) + 整机制造商(智元、宇树、特斯拉 Optimus)」的明确分层。
**3. 「机器人 iPhone 时刻」的临界点临近**
苹果 iPhone 时刻的核心不是「单个硬件突破」,而是「应用生态+开发框架+硬件规范」三件套成熟。
Qwen-Robot 三件套 + 阿里云一站式部署 + 国产芯片(地平线 / 寒武纪 / 算苗)——这条链路一旦打通,2026 年下半年到 2027 年上半年,可能出现「消费级机器人」的密集发布潮。
### 六、不应被高估的部分
冷静下来也得指出:
**1. 「SOTA」是 benchmark 分数,不等于「真机鲁棒性」**
家庭场景的真实鲁棒性(光线变化、物体多样性、突发干扰)通常比 benchmark 低 20-30%。
**2. 三个模型协同的「端到端」尚未完全打通**
目前 Manip 和 Nav 的「交接」还在工程优化阶段;World 模型与前两者的「双向耦合」还在 demo 级。
**3. 「开源协议」细节未公开**
阿里尚未公布 Qwen-Robot 的开源协议——商用 / 学术 / 闭源衍生等边界尚不明确。
### 七、值得跟踪的后续
1. **7 月世界人工智能大会(WAIC 2026)**——阿里大概率会放出三件套的「端到端」demo
2. **开源协议正式发布**——6 月底之前看是否明确「可商用」边界
3. **与国产芯片的适配**——地平线 J6、寒武纪 MLU、算苗 3D TokenPU 的端侧部署
4. **首批集成 Qwen-Robot 的机器人公司**——大概率是宇树、智元、星动纪元等老牌具身智能公司
来源:
• 阿里巴巴 6 月 16 日官方发布稿《千问具身大模型 Qwen-Robot 系列发布》
• 36氪 6 月 17 日《阿里连发三款 Qwen-Robot 系列具身大模型,机器人「手、脚、脑」齐了》
• 电子信息产业网 6 月 18 日《阿里千问发布其首个完整的具身智能模型矩阵》
### 相关阅读
• 2026-06-20:arXiv MemoryWAM 开启 VLA 持久记忆
• 2026-06-17:京津冀首个万台级具身智能机器人超级工厂规模投用
• 2026-06-16:智元 A3 自主打乒乓球 + 智平方 NeuroVLA —— 国产 AI「三连击」






