6 月 16 日,阿里巴巴正式发布千问具身智能大模型 Qwen-Robot 系列——

这是中国科技公司第一次拿出「完整可商用」的具身智能模型矩阵。

**三个核心模型:**

• **Qwen-RobotManip**(VLA 操作模型)—— 给机器人装「灵巧手」

• **Qwen-RobotNav**(VLN 移动模型)—— 给机器人装「认路脚」

• **Qwen-RobotWorld**(世界模型)—— 给机器人装「会思考的大脑」

三个模型既可独立部署,也能协同运行,对应阿里「为不同形态机器人提供通用基础模型」的整体定位。

### 一、为什么「三件套」是 2026 具身智能的真正拐点

先把产业现状说清楚。

**过去两年,全球具身智能研究一直困在「单点突破」的怪圈:**

• OpenVLA、RT-2 等 VLA 模型(操作)—— 抓取、拧螺丝、折叠衣物厉害,但「不会走」

• NaviLLM、Uni-NaVid 等 VLN 模型(导航)—— 跨楼层、室内外通行厉害,但「不会操作」

• Cosmos 3、Genie 3 等世界模型(仿真)—— 视频预测、未来帧想象厉害,但「没有真机接口」

**这意味着:想造一台「能走能干活能预判」的机器人,过去要自己把三个模型拼起来,工程门槛极高。**

Qwen-Robot 系列的核心价值就是:把这三件事打包成「开箱即用」的模型矩阵。

### 二、VLA 操作模型 Qwen-RobotManip:手

Qwen-RobotManip 是一个 7B 参数的视觉-语言-动作模型,定位「通用抓取 + 灵巧操作」。

**关键能力:**

• 同时支持 6 自由度机械臂、7 自由度仿人手、灵巧手机械爪

• 抓取成功率在 11 类常见家庭 + 工业场景达 92.4%,超过 OpenVLA(85.7%)和 RT-2X(88.1%)

• 复杂任务(叠衣服、倒水、装配小件)平均完成率 78.3%,超越业界 70% 阈值

**技术亮点:**

把「语言指令 → 动作序列」拆成「高层语义规划 + 低层动作 chunk」两段式生成——

这让模型在「没说清楚的任务」上能主动追问 / 主动规划,而不是直接「猜动作」。

### 三、VLN 移动模型 Qwen-RobotNav:脚

Qwen-RobotNav 是 4B 参数的视觉-语言-导航模型,覆盖室内 + 室外 + 多层楼宇三类场景。

**关键能力:**

• 在 R2R(室内导航)、REVERIE(指令导航)、Touchdown(室外导航)三个标准 benchmark 上同时拿到 SOTA

• 跨楼层导航成功率 81.6%,超过 NaviLLM(76.2%)和 Uni-NaVid(78.9%)

• 与 Manip 模型「无缝衔接」:可以先导航到目标位置,再交接给 Manip 模型完成操作

**技术亮点:**

引入了「长期记忆 token」机制——让机器人在跨楼层任务中保留「我刚才去过哪儿、没去成」的状态。

这正好与 6 月 20 日 arXiv:2606.20562 的 MemoryWAM(世界动作模型的「持久记忆」)形成呼应——

全球范围内,「机器人长时序记忆」已经成为 6 月学术圈的明确共识。

### 四、世界模型 Qwen-RobotWorld:脑

Qwen-RobotWorld 是 13B 参数的视频生成 + 物理预测世界模型,对标 NVIDIA Cosmos 3。

**关键能力:**

• 1 秒视频预测(24fps)的物理一致性评分 0.87(满分 1.0),逼近 Cosmos 3 的 0.89

• 5 秒长程预测一致性 0.71,显著领先 Genie 3(0.62)和 Cosmos 2(0.65)

• 与 Manip / Nav 模型「双向耦合」:可以「想象」任务执行过程提前规划,也可以「回放」执行失败的过程反推原因

**技术亮点:**

世界模型不只是「生成视频」——它输出的「未来帧」直接作为 Manip / Nav 模型的「内部规划器」,

让机器人在「执行前」先在「脑内」演练一遍,这是「具身智能」从「反应式」到「思考式」的关键跳跃。

### 五、产业影响:把「具身智能创业公司」的护城河「打薄」

**1. 创业公司的「模型自研」路线被釜底抽薪**

过去两年,国内具身智能创业公司(如智元、宇树、银河通用、星动纪元)的核心壁垒是「自研 VLA / VLN 模型」。

阿里直接把三件套开源,**等于告诉所有硬件公司:模型可以白拿,专注做硬件 + 集成即可。**

**2. 机器人「造车模式」正式成型**

汽车行业有「Tier 1 供应商 + 整车厂」分工;机器人行业现在也出现了「基础模型供应商(阿里、智谱、深度求索) + 整机制造商(智元、宇树、特斯拉 Optimus)」的明确分层。

**3. 「机器人 iPhone 时刻」的临界点临近**

苹果 iPhone 时刻的核心不是「单个硬件突破」,而是「应用生态+开发框架+硬件规范」三件套成熟。

Qwen-Robot 三件套 + 阿里云一站式部署 + 国产芯片(地平线 / 寒武纪 / 算苗)——这条链路一旦打通,2026 年下半年到 2027 年上半年,可能出现「消费级机器人」的密集发布潮。

### 六、不应被高估的部分

冷静下来也得指出:

**1. 「SOTA」是 benchmark 分数,不等于「真机鲁棒性」**

家庭场景的真实鲁棒性(光线变化、物体多样性、突发干扰)通常比 benchmark 低 20-30%。

**2. 三个模型协同的「端到端」尚未完全打通**

目前 Manip 和 Nav 的「交接」还在工程优化阶段;World 模型与前两者的「双向耦合」还在 demo 级。

**3. 「开源协议」细节未公开**

阿里尚未公布 Qwen-Robot 的开源协议——商用 / 学术 / 闭源衍生等边界尚不明确。

### 七、值得跟踪的后续

1. **7 月世界人工智能大会(WAIC 2026)**——阿里大概率会放出三件套的「端到端」demo

2. **开源协议正式发布**——6 月底之前看是否明确「可商用」边界

3. **与国产芯片的适配**——地平线 J6、寒武纪 MLU、算苗 3D TokenPU 的端侧部署

4. **首批集成 Qwen-Robot 的机器人公司**——大概率是宇树、智元、星动纪元等老牌具身智能公司

来源:

• 阿里巴巴 6 月 16 日官方发布稿《千问具身大模型 Qwen-Robot 系列发布》

• 36氪 6 月 17 日《阿里连发三款 Qwen-Robot 系列具身大模型,机器人「手、脚、脑」齐了》

• 电子信息产业网 6 月 18 日《阿里千问发布其首个完整的具身智能模型矩阵》

### 相关阅读

• 2026-06-20:arXiv MemoryWAM 开启 VLA 持久记忆

• 2026-06-17:京津冀首个万台级具身智能机器人超级工厂规模投用

• 2026-06-16:智元 A3 自主打乒乓球 + 智平方 NeuroVLA —— 国产 AI「三连击」