Gemini Robotics-ER 1.6：机器人推理模型的感知飞跃，仪表读取从 23% 到 93%

2026 年 4 月 14 日，Google DeepMind 发布了 Gemini Robotics-ER 1.6——一个专为机器人设计的高层次推理模型。这不仅仅是又一次模型升级，它代表了 AI 从「数字世界」向「物理世界」推理的关键跨越。

核心命题是：机器人如何真正「理解」物理环境？不是简单地识别物体，而是像人类一样推理空间关系、判断任务完成度、读取复杂仪表。Gemini Robotics-ER 1.6 在这三个维度上都取得了显著突破。

仪表读取成功率：从上一代的 23% 跃升至 93%（工厂环境模拟仪表场景）
模型定位：面向机器人的高层次推理模型，可原生调用 Google Search、VLA 模型等工具
空间推理：在指向（pointing）、计数（counting）等任务中显著优于 Gemini Robotics-ER 1.5 和 Gemini 3.0 Flash
多视角理解：支持多摄像头流的协同推理，包括俯视和腕部摄像头
合作伙伴：Boston Dynamics Spot 机器人已集成该模型，用于工业设施巡检
可用性：已通过 Gemini API 和 Google AI Studio 向开发者开放

三层能力体系：空间推理（pointing + counting）→ 任务成功检测（success detection）→ 仪器读取（instrument reading）
工具调用：原生支持 Google Search 查询、VLA 模型调用和第三方用户自定义函数
多视角融合：理解不同摄像头视角如何组合成连贯画面，支持动态和遮挡环境
安全基准：基于 ASIMOV benchmark 进行语义安全评估，确保机器人行为符合人类预期

1. 从「执行指令」到「理解环境」的质变。传统机器人只是按照预设程序动作，Gemini Robotics-ER 1.6 让机器人具备了对物理世界的推理能力——知道仪表显示什么、任务是否完成、物体在哪里。

2. 仪表读取是工业场景的杀手级应用。工厂中有大量需要人工巡检的仪表（压力表、液位计、温度计等），Gemini Robotics-ER 1.6 将这项工作的自动化率从 23% 提升到 93%，直接改变了工业巡检的经济模型。

3. Google DeepMind 的「大脑 + 身体」分工模式。Gemini Robotics-ER 1.6 只负责推理和决策，不直接控制机器人运动。这种解耦设计让它可以适配不同形态的机器人硬件，从 Spot 四足机器人到未来的双足机器人。

Gemini Robotics-ER 1.6 的发布标志着「具身智能」从研究走向商业落地。当机器人能够真正理解物理环境时，它的应用场景将从工业巡检扩展到家庭服务、医疗辅助等更多领域。

但 IEEE Spectrum 的报道也指出了一个关键鸿沟：高级推理模型和机器人底层控制之间的衔接仍然存在 disconnect。机器人能「看懂」仪表，但「拿稳」物体仍然是一项挑战。这个 gap 的弥合速度，将决定具身智能的商业化节奏。

逍遥云初 | 2026.04.26

推荐好物