Gemini AI 使办公室机器人变得更加有用

迷失在陌生的办公楼、大型商店或仓库中？只需向最近的机器人询问方向即可。

谷歌研究人员团队将自然语言处理和计算机视觉的力量结合起来，开发了一种新颖的机器人导航方法，作为周三发表的一项新研究的一部分。

在 Instagram 上查看这篇文章
Google DeepMind (@googledeepmind) 分享的帖子

从本质上讲，该团队开始教机器人（在本例中是日常机器人）如何使用自然语言提示和视觉输入在室内空间中导航。过去，机器人导航不仅要求研究人员提前绘制环境图，还要提供空间内的特定物理坐标来引导机器。视觉语言导航的最新进展使用户能够简单地向机器人发出自然语言命令，例如“去工作台”。谷歌的研究人员正在通过整合多模式功能进一步推进这一概念，以便机器人可以同时接受自然语言和图像指令。

例如，仓库中的用户可以向机器人展示一件物品并询问：“这个物品放在哪个货架上？”利用 Gemini 1.5 Pro 的强大功能，人工智能可以解释口头问题和视觉信息，不仅制定响应，而且制定导航路径，引导用户到达仓库地板上的正确位置。这些机器人还接受了诸如“带我到双门会议室”、“我在哪里可以借一些洗手液”以及“我想把一些东西存放在公众视线之外的地方”等命令进行测试。我应该去哪儿？”

或者，在上面的 Instagram Reel 中，研究人员用“OK 机器人”激活系统，然后要求被带到“他可以画画”的地方。机器人回应道：“给我一分钟。”与 Gemini 一起思考……”，然后轻快地穿过 9,000 平方英尺的 DeepMind 办公室，寻找一块大型壁挂式白板。

公平地说，这些开创性的机器人已经熟悉了办公空间的布局。该团队采用了一种称为“带有演示之旅的多模式教学导航 (MINT)”的技术。该团队首先在办公室周围手动引导机器人，使用自然语言指出特定区域和功能，尽管只需使用智能手机录制空间视频也可以实现相同的效果。人工智能从那里生成一个拓扑图，将其摄像机所看到的内容与演示视频中的“目标框架”进行匹配。

然后，该团队采用分层视觉-语言-动作（VLA）导航策略“结合环境理解和常识推理”，指导人工智能如何将用户请求转化为导航动作。

研究人员写道，结果非常成功，机器人“在大型现实世界环境中完成以前不可行的导航任务（涉及复杂推理和多模式用户指令），实现了 86% 和 90% 的端到端成功率”。

然而，他们认识到仍有改进的空间，指出机器人（还）无法自主执行自己的演示之旅，并指出人工智能的笨拙推理时间（制定响应需要多长时间）为 10 到 30 秒将与系统的交互变成耐心的研究。