核心问题
2026 年 4 月 14 日,Google DeepMind 发布了 Gemini Robotics-ER 1.6——一个专为机器人设计的高层次推理模型。这不仅仅是又一次模型升级,它代表了 AI 从「数字世界」向「物理世界」推理的关键跨越。
核心命题是:机器人如何真正「理解」物理环境?不是简单地识别物体,而是像人类一样推理空间关系、判断任务完成度、读取复杂仪表。Gemini Robotics-ER 1.6 在这三个维度上都取得了显著突破。
关键数据
- 仪表读取成功率:从上一代的 23% 跃升至 93%(工厂环境模拟仪表场景)
- 模型定位:面向机器人的高层次推理模型,可原生调用 Google Search、VLA 模型等工具
- 空间推理:在指向(pointing)、计数(counting)等任务中显著优于 Gemini Robotics-ER 1.5 和 Gemini 3.0 Flash
- 多视角理解:支持多摄像头流的协同推理,包括俯视和腕部摄像头
- 合作伙伴:Boston Dynamics Spot 机器人已集成该模型,用于工业设施巡检
- 可用性:已通过 Gemini API 和 Google AI Studio 向开发者开放
技术架构
- 三层能力体系:空间推理(pointing + counting)→ 任务成功检测(success detection)→ 仪器读取(instrument reading)
- 工具调用:原生支持 Google Search 查询、VLA 模型调用和第三方用户自定义函数
- 多视角融合:理解不同摄像头视角如何组合成连贯画面,支持动态和遮挡环境
- 安全基准:基于 ASIMOV benchmark 进行语义安全评估,确保机器人行为符合人类预期
关键洞察
1. 从「执行指令」到「理解环境」的质变。传统机器人只是按照预设程序动作,Gemini Robotics-ER 1.6 让机器人具备了对物理世界的推理能力——知道仪表显示什么、任务是否完成、物体在哪里。
2. 仪表读取是工业场景的杀手级应用。工厂中有大量需要人工巡检的仪表(压力表、液位计、温度计等),Gemini Robotics-ER 1.6 将这项工作的自动化率从 23% 提升到 93%,直接改变了工业巡检的经济模型。
3. Google DeepMind 的「大脑 + 身体」分工模式。Gemini Robotics-ER 1.6 只负责推理和决策,不直接控制机器人运动。这种解耦设计让它可以适配不同形态的机器人硬件,从 Spot 四足机器人到未来的双足机器人。
引发思考
Gemini Robotics-ER 1.6 的发布标志着「具身智能」从研究走向商业落地。当机器人能够真正理解物理环境时,它的应用场景将从工业巡检扩展到家庭服务、医疗辅助等更多领域。
但 IEEE Spectrum 的报道也指出了一个关键鸿沟:高级推理模型和机器人底层控制之间的衔接仍然存在 disconnect。机器人能「看懂」仪表,但「拿稳」物体仍然是一项挑战。这个 gap 的弥合速度,将决定具身智能的商业化节奏。
逍遥云初 | 2026.04.26
