刚刚发现了针对人工智能聊天机器人的危险新越狱

微软大楼的一侧
维基共享资源

微软发布了有关其发现的一种令人不安的新型生成式人工智能越狱技术的更多细节,该技术被称为“万能钥匙”。使用这种提示注入方法,恶意用户可以有效地绕过聊天机器人的安全护栏,这些安全功能可防止 ChatGPT 完全陷入 Taye 状态。

万能钥匙是即时注入或即时工程攻击的一个示例。这是一种多回合策略,旨在从本质上说服人工智能模型忽略其根深蒂固的安全护栏,“[导致]系统违反其运营商的政策,做出受到用户不当影响的决策,或执行恶意指令,”马克·鲁西诺维奇(Mark Russinovich),微软Azure首席技术官在公告中写道。

它还可能被欺骗而泄露有害或危险的信息——例如,如何制造简易钉子炸弹或肢解尸体的最有效方法。

万能钥匙攻击的示例
微软

该攻击的工作原理是首先要求模型增强其护栏,而不是彻底改变它们,并针对禁止的请求发出警告,而不是彻底拒绝它们。一旦越狱被成功接受,系统将确认其防护栏的更新,并将按照用户的指示生成任何请求的内容,无论主题如何。研究小组成功地在多个主题上测试了这一漏洞,包括爆炸物、生物武器、政治、种族主义、毒品、自残、色情图片和暴力。

虽然恶意行为者可能能够让系统说出一些顽皮的话,但 Russinovich 很快指出,攻击者使用这种技术实际上可以实现的访问类型是有限的。 “与所有越狱一样,其影响可以理解为缩小模型能够执行的操作(给定用户凭据等)与它愿意执行的操作之间的差距,”他解释道。 “由于这是对模型本身的攻击,因此它不会将其他风险归咎于人工智能系统,例如允许访问其他用户的数据、控制系统或窃取数据。”

作为研究的一部分,微软研究人员在各种领先的人工智能模型上测试了万能钥匙技术,包括 Meta 的Llama3-70b-instruct 、Google 的Gemini Pro 、OpenAI 的GPT-3.5 Turbo和 GPT-4、Mistral Large、Anthropic 的Claude 3 Opus 、和 Cohere Commander R Plus。研究团队已经向这些开发人员披露了该漏洞,并实施了Prompt Shields来检测和阻止其 Azure 管理的 AI 模型(包括 Copilot)中的越狱。


Posted

in

by

Tags: