您需要了解的有关 OpenAI 基于浏览器的代理 Operator 的所有信息

随着一月份发布的 Operator AI，OpenAI 终于进入了代理人工智能竞赛。该代理系统旨在代表用户自主工作，并准备好与克劳德的计算机使用 API和微软的 Copilot 代理等已经成熟的行业竞争对手竞争——至少，一旦它摆脱了“研究预览”状态。以下是您需要了解的有关 OpenAI 新代理的所有信息，以及您何时可以亲自尝试。

什么是运营商？

OpenAI 的 Operator 是一个代理 AI ，这意味着它被设计为根据可用信息采取自主行动。但与传统程序不同的是，人工智能代理能够实时查看不断变化的条件并做出相应反应，而不是简单地执行预定命令。因此，人工智能代理能够执行各种复杂的多步骤任务，从商务会议的转录、总结和生成行动项目，到根据家人的不同日程安排即将到来的假期预订航班、酒店住宿和租车，再到自主研究主题并组装有关这些主题的多页研究报告。

Operator 的工作方式与当前可用的其他代理略有不同。虽然 Claude 的计算机使用是一个 API，微软的 AI 代理在 Copilot 聊天 UI 本身内工作，但 Operator 的设计目的是在专用的 Web 浏览器窗口中运行，该窗口在 OpenAI 的服务器上运行并远程执行其任务。您本地的网络浏览器与该过程无关，即使 Operator 正在运行也可以正常使用。

Operator 应用程序由新的“计算机使用代理”模型 (CUA) 提供支持，而该模型又构建在 GPT-4o 之上，提供了应用程序的多模式功能。 OpenAI 表示 CUA 的训练方式与其 o1 和 o3 推理模型类似。因此，CUA 模型将把复杂的任务分解为其组件问题，然后尝试按顺序解决它们，如果遇到任何逻辑障碍，则回溯。

操作员什么时候被释放？

OpenAI 于 2025 年 1 月 23 日发布了 Operator。目前仅通过operator.chatgpt.com网站向美国每月 200 美元的 Pro 用户提供。 “我们的计划是扩展到 Plus、Team 和 Enterprise 用户，并在未来将这些功能集成到 ChatGPT 中，”该公司在公告中写道。

操作员如何工作？

演示操作员

用户可以从 ChatGPT 主屏幕激活代理，该代理会在侧窗中弹出专用的 Web 浏览器页面，供操作员执行其任务。人工智能提供了当前正在执行的操作的运行叙述，用户可以随时接管该过程。操作员会在某些任务中请求用户的帮助，例如登录特定的安全网站，以及在执行重要任务之前获得用户的确认。当它模仿用户的键盘点击和鼠标点击时，它可以在视觉上（即通过屏幕截图）和战术上与网站进行交互。

Operator 可以做什么以及它能做得如何？

由于仅限于浏览器，Operator 目前只能执行简单的基于互联网的任务，例如预订音乐会门票、订购 DoorDash 或填写 Instacart 订单。该公司还声称，该代理将能够自动执行预订酒店和航班、预订餐厅餐桌、甚至在线购物等任务。

OpenAI 在许多行业基准测试中将 Operator 与 Anthropic 的 Computer Use 以及 Google DeepMind 的 Mariner 代理进行了比较，并声称 Operator 全面击败了他们。在衡量代理完成合并 PDF 文件等任务的能力的OSWorld 基准测试中，CUA 以 38.1% 比 22.0% 击败了计算机使用 — 作为参考，人类在这些任务上的平均成功率为 72% 左右。在WebVoyager 基准测试中，CUA 的得分比 Mariner 高出 87% 到 83.5%。计算机使用得分仅为 56%。

然而，用户对人工智能代理的最初反应褒贬不一。例如， 《纽约时报》专栏作家 Kevin Roost 写道：“总而言之，我发现使用 Operator 通常带来的麻烦多于其价值。它为我所做的大部分事情我自己都可以做得更快，更少的头痛。”

“即使它有效，”他继续说道，“在采取行动之前，它也需要大量的确认和保证，这让我感觉自己不像有一个虚拟助理，而更像是在监督世界上最没有安全感的实习生。”

我如何亲自尝试 Operator？

为了访问 OpenAI 的 Operator 代理，您需要注册 OpenAI 的 Pro 层订阅，然后通过Operator.chatgpt.com网站访问它。

Posted

5 2 月, 2025

blog

技術新聞普遍器

Tags: