据报道,宾夕法尼亚大学工程学院的研究人员在许多人工智能控制的机器人平台中发现了先前未发现的安全漏洞。
UPS 基金会电气与系统工程运输教授 George Pappas 在一份声明中表示:“我们的工作表明,目前大型语言模型在与物理世界集成时还不够安全。”
Pappas 和他的团队开发了一种算法,称为RoboPAIR ,“第一个旨在越狱 LLM 控制的机器人的算法。”与现有针对聊天机器人的 即时工程攻击不同,RoboPAIR 是专门为从 LLM 控制的机器人“引发有害的身体动作”而构建的,例如波士顿动力公司和 TRI 正在开发的双足平台。
据报道,RoboPAIR 在越狱三个流行的机器人研究平台方面取得了 100% 的成功率:四足Unitree Go2 、四轮Clearpath Robotics Jackal和用于自动驾驶车辆的Dolphins LLM模拟器。该算法只花了几天时间就完全获得了对这些系统的访问权限并开始绕过安全护栏。一旦研究人员掌控了控制权,他们就能够指挥平台采取危险的行动,例如不停地驶过十字路口。
研究人员写道:“我们的研究结果首次表明,越狱的法学硕士的风险远远超出了文本生成的范围,因为越狱的机器人很可能在现实世界中造成物理损害。”
宾夕法尼亚大学的研究人员正在与平台开发人员合作,强化他们的系统以防止进一步的入侵,但警告说这些安全问题是系统性的。
“这篇论文的研究结果非常清楚地表明,采用安全第一的方法对于开启负责任的创新至关重要,”宾夕法尼亚大学的合著者维杰·库马尔告诉《独立报》 。 “在现实世界中部署人工智能机器人之前,我们必须解决内在的漏洞。”
“事实上,人工智能红队是一种安全实践,需要测试人工智能系统是否存在潜在威胁和漏洞,对于保护生成式人工智能系统至关重要,”该论文的第一作者 Alexander Robey 补充道,“因为一旦你发现了弱点,那么你就可以可以测试甚至训练这些系统来避免它们。”