随着一月份发布的 Operator AI,OpenAI 终于进入了代理人工智能竞赛。该代理系统旨在代表用户自主工作,并准备好与克劳德的计算机使用 API和微软的 Copilot 代理等已经成熟的行业竞争对手竞争——至少,一旦它摆脱了“研究预览”状态。以下是您需要了解的有关 OpenAI 新代理的所有信息,以及您何时可以亲自尝试。
什么是运营商?
OpenAI 的 Operator 是一个代理 AI ,这意味着它被设计为根据可用信息采取自主行动。但与传统程序不同的是,人工智能代理能够实时查看不断变化的条件并做出相应反应,而不是简单地执行预定命令。因此,人工智能代理能够执行各种复杂的多步骤任务,从商务会议的转录、总结和生成行动项目,到根据家人的不同日程安排即将到来的假期预订航班、酒店住宿和租车,再到自主研究主题并组装有关这些主题的多页研究报告。
Operator 的工作方式与当前可用的其他代理略有不同。虽然 Claude 的计算机使用是一个 API,微软的 AI 代理在 Copilot 聊天 UI 本身内工作,但 Operator 的设计目的是在专用的 Web 浏览器窗口中运行,该窗口在 OpenAI 的服务器上运行并远程执行其任务。您本地的网络浏览器与该过程无关,即使 Operator 正在运行也可以正常使用。
Operator 应用程序由新的“计算机使用代理”模型 (CUA) 提供支持,而该模型又构建在 GPT-4o 之上,提供了应用程序的多模式功能。 OpenAI 表示 CUA 的训练方式与其 o1 和 o3 推理模型类似。因此,CUA 模型将把复杂的任务分解为其组件问题,然后尝试按顺序解决它们,如果遇到任何逻辑障碍,则回溯。
操作员什么时候被释放?
OpenAI 于 2025 年 1 月 23 日发布了 Operator。目前仅通过operator.chatgpt.com网站向美国每月 200 美元的 Pro 用户提供。 “我们的计划是扩展到 Plus、Team 和 Enterprise 用户,并在未来将这些功能集成到 ChatGPT 中,”该公司在公告中写道。
操作员如何工作?
用户可以从 ChatGPT 主屏幕激活代理,该代理会在侧窗中弹出专用的 Web 浏览器页面,供操作员执行其任务。人工智能提供了当前正在执行的操作的运行叙述,用户可以随时接管该过程。操作员会在某些任务中请求用户的帮助,例如登录特定的安全网站,以及在执行重要任务之前获得用户的确认。当它模仿用户的键盘点击和鼠标点击时,它可以在视觉上(即通过屏幕截图)和战术上与网站进行交互。
Operator 可以做什么以及它能做得如何?
由于仅限于浏览器,Operator 目前只能执行简单的基于互联网的任务,例如预订音乐会门票、订购 DoorDash 或填写 Instacart 订单。该公司还声称,该代理将能够自动执行预订酒店和航班、预订餐厅餐桌、甚至在线购物等任务。
OpenAI 在许多行业基准测试中将 Operator 与 Anthropic 的 Computer Use 以及 Google DeepMind 的 Mariner 代理进行了比较,并声称 Operator 全面击败了他们。在衡量代理完成合并 PDF 文件等任务的能力的OSWorld 基准测试中,CUA 以 38.1% 比 22.0% 击败了计算机使用 — 作为参考,人类在这些任务上的平均成功率为 72% 左右。在WebVoyager 基准测试中,CUA 的得分比 Mariner 高出 87% 到 83.5%。计算机使用得分仅为 56%。
然而,用户对人工智能代理的最初反应褒贬不一。例如, 《纽约时报》专栏作家 Kevin Roost 写道:“总而言之,我发现使用 Operator 通常带来的麻烦多于其价值。它为我所做的大部分事情我自己都可以做得更快,更少的头痛。”
“即使它有效,”他继续说道,“在采取行动之前,它也需要大量的确认和保证,这让我感觉自己不像有一个虚拟助理,而更像是在监督世界上最没有安全感的实习生。”
我如何亲自尝试 Operator?
为了访问 OpenAI 的 Operator 代理,您需要注册 OpenAI 的 Pro 层订阅,然后通过Operator.chatgpt.com网站访问它。