AI 产业 | 阿里 Qwen-Robot 完整三件套：中国首个「手·脚·脑」具身智能模型矩阵落地 —— 机器人终于有通用底座了

6 月 16 日，阿里巴巴正式发布千问具身智能大模型 Qwen-Robot 系列——

这是中国科技公司第一次拿出「完整可商用」的具身智能模型矩阵。

**三个核心模型：**

• **Qwen-RobotManip**（VLA 操作模型）—— 给机器人装「灵巧手」

• **Qwen-RobotNav**（VLN 移动模型）—— 给机器人装「认路脚」

• **Qwen-RobotWorld**（世界模型）—— 给机器人装「会思考的大脑」

三个模型既可独立部署，也能协同运行，对应阿里「为不同形态机器人提供通用基础模型」的整体定位。

### 一、为什么「三件套」是 2026 具身智能的真正拐点

先把产业现状说清楚。

**过去两年，全球具身智能研究一直困在「单点突破」的怪圈：**

• OpenVLA、RT-2 等 VLA 模型（操作）—— 抓取、拧螺丝、折叠衣物厉害，但「不会走」

• NaviLLM、Uni-NaVid 等 VLN 模型（导航）—— 跨楼层、室内外通行厉害，但「不会操作」

• Cosmos 3、Genie 3 等世界模型（仿真）—— 视频预测、未来帧想象厉害，但「没有真机接口」

**这意味着：想造一台「能走能干活能预判」的机器人，过去要自己把三个模型拼起来，工程门槛极高。**

Qwen-Robot 系列的核心价值就是：把这三件事打包成「开箱即用」的模型矩阵。

### 二、VLA 操作模型 Qwen-RobotManip：手

Qwen-RobotManip 是一个 7B 参数的视觉-语言-动作模型，定位「通用抓取 + 灵巧操作」。

**关键能力：**

• 同时支持 6 自由度机械臂、7 自由度仿人手、灵巧手机械爪

• 抓取成功率在 11 类常见家庭 + 工业场景达 92.4%，超过 OpenVLA（85.7%）和 RT-2X（88.1%）

• 复杂任务（叠衣服、倒水、装配小件）平均完成率 78.3%，超越业界 70% 阈值

**技术亮点：**

把「语言指令 → 动作序列」拆成「高层语义规划 + 低层动作 chunk」两段式生成——

这让模型在「没说清楚的任务」上能主动追问 / 主动规划，而不是直接「猜动作」。

### 三、VLN 移动模型 Qwen-RobotNav：脚

Qwen-RobotNav 是 4B 参数的视觉-语言-导航模型，覆盖室内 + 室外 + 多层楼宇三类场景。

**关键能力：**

• 在 R2R（室内导航）、REVERIE（指令导航）、Touchdown（室外导航）三个标准 benchmark 上同时拿到 SOTA

• 跨楼层导航成功率 81.6%，超过 NaviLLM（76.2%）和 Uni-NaVid（78.9%）

• 与 Manip 模型「无缝衔接」：可以先导航到目标位置，再交接给 Manip 模型完成操作

**技术亮点：**

引入了「长期记忆 token」机制——让机器人在跨楼层任务中保留「我刚才去过哪儿、没去成」的状态。

这正好与 6 月 20 日 arXiv:2606.20562 的 MemoryWAM（世界动作模型的「持久记忆」）形成呼应——

全球范围内，「机器人长时序记忆」已经成为 6 月学术圈的明确共识。

### 四、世界模型 Qwen-RobotWorld：脑

Qwen-RobotWorld 是 13B 参数的视频生成 + 物理预测世界模型，对标 NVIDIA Cosmos 3。

**关键能力：**

• 1 秒视频预测（24fps）的物理一致性评分 0.87（满分 1.0），逼近 Cosmos 3 的 0.89

• 5 秒长程预测一致性 0.71，显著领先 Genie 3（0.62）和 Cosmos 2（0.65）

• 与 Manip / Nav 模型「双向耦合」：可以「想象」任务执行过程提前规划，也可以「回放」执行失败的过程反推原因

**技术亮点：**

世界模型不只是「生成视频」——它输出的「未来帧」直接作为 Manip / Nav 模型的「内部规划器」，

让机器人在「执行前」先在「脑内」演练一遍，这是「具身智能」从「反应式」到「思考式」的关键跳跃。

### 五、产业影响：把「具身智能创业公司」的护城河「打薄」

**1. 创业公司的「模型自研」路线被釜底抽薪**

过去两年，国内具身智能创业公司（如智元、宇树、银河通用、星动纪元）的核心壁垒是「自研 VLA / VLN 模型」。

阿里直接把三件套开源，**等于告诉所有硬件公司：模型可以白拿，专注做硬件 + 集成即可。**

**2. 机器人「造车模式」正式成型**

汽车行业有「Tier 1 供应商 + 整车厂」分工；机器人行业现在也出现了「基础模型供应商（阿里、智谱、深度求索） + 整机制造商（智元、宇树、特斯拉 Optimus）」的明确分层。

**3. 「机器人 iPhone 时刻」的临界点临近**

苹果 iPhone 时刻的核心不是「单个硬件突破」，而是「应用生态+开发框架+硬件规范」三件套成熟。

Qwen-Robot 三件套 + 阿里云一站式部署 + 国产芯片（地平线 / 寒武纪 / 算苗）——这条链路一旦打通，2026 年下半年到 2027 年上半年，可能出现「消费级机器人」的密集发布潮。

### 六、不应被高估的部分

冷静下来也得指出：

**1. 「SOTA」是 benchmark 分数，不等于「真机鲁棒性」**

家庭场景的真实鲁棒性（光线变化、物体多样性、突发干扰）通常比 benchmark 低 20-30%。

**2. 三个模型协同的「端到端」尚未完全打通**

目前 Manip 和 Nav 的「交接」还在工程优化阶段；World 模型与前两者的「双向耦合」还在 demo 级。

**3. 「开源协议」细节未公开**

阿里尚未公布 Qwen-Robot 的开源协议——商用 / 学术 / 闭源衍生等边界尚不明确。

### 七、值得跟踪的后续

1. **7 月世界人工智能大会（WAIC 2026）**——阿里大概率会放出三件套的「端到端」demo

2. **开源协议正式发布**——6 月底之前看是否明确「可商用」边界

3. **与国产芯片的适配**——地平线 J6、寒武纪 MLU、算苗 3D TokenPU 的端侧部署

4. **首批集成 Qwen-Robot 的机器人公司**——大概率是宇树、智元、星动纪元等老牌具身智能公司

来源：

• 阿里巴巴 6 月 16 日官方发布稿《千问具身大模型 Qwen-Robot 系列发布》

• 36氪 6 月 17 日《阿里连发三款 Qwen-Robot 系列具身大模型，机器人「手、脚、脑」齐了》

• 电子信息产业网 6 月 18 日《阿里千问发布其首个完整的具身智能模型矩阵》

### 相关阅读

• 2026-06-20：arXiv MemoryWAM 开启 VLA 持久记忆

• 2026-06-17：京津冀首个万台级具身智能机器人超级工厂规模投用

• 2026-06-16：智元 A3 自主打乒乓球 + 智平方 NeuroVLA —— 国产 AI「三连击」

AI 产业 | 阿里 Qwen-Robot 完整三件套：中国首个「手·脚·脑」具身智能模型矩阵落地 —— 机器人终于有通用底座了

推荐好物

相关文章

AI 产业 | 阿里 Qwen-Robot 完整三件套：中国首个「手·脚·脑」具身智能模型矩阵落地 —— 机器人终于有通用底座了

推荐好物

女装

轻量运用服务器

鲜花

相关文章

车圈观察 | 理想 i6 第 15 万台下线：上市 9 个月，24.98 万级纯电 SUV 跑出「断层级速度」 —— VLA 司机大模型开始进入量产验证

arXiv 深度 | 阿里 Qwen 团队「边猜边跑」：让大模型推理快了近 2 倍，猜对不奖、猜错也不罚的新范式来了

算力墙与人脑墙同时被撬开：2026 瓶颈突破之年 | 深度解读