Anthropic 的克劳德现在可以像人一样控制计算机

Anthropic已经令人印象深刻的 Claude 3.5 Sonnet在周二获得了显着的性能提升，这家生成人工智能初创公司推出了该模型的增强和更新版本以及新的轻量级 Claude 3.5 Haiku。 Sonnet 更新包括一个公开测试版功能，使人工智能能够对其运行的计算机进行基本控制。

在编码任务方面，Claude 3.5 Sonnet 已经是性能领先者，但新版本比其前身显示出显着的全面改进，并且在各种行业基准上稳步优于 Gemini 1.5 和GPT-4o 。 Gemini 1.5 Pro 是唯一一款在任何测试中都优于新款 3.5 Sonnet 的型号，并且在MATH 基准测试中也是如此。

尽管尺寸较小，新款 3.5 Haiku 也毫不逊色。 3.5 Haiku 定于本月晚些时候发布，其性能优于该公司最大的上一代型号 Claude 3.0 Opus。与其更大的版本一样，新的 Haiku 非常擅长编码任务，在 SWE-bench Verified 上得分为 40.6%，高于 GPT-40 和原始的 3.5 Sonnet。

更令人印象深刻的是，新的 Claude 3.5 Sonnet 现在可以通过“计算机使用”API 与桌面应用程序交互。人工智能可以生成模拟人类用户所需的必要击键、鼠标点击和动作。该公司很快指出，该系统目前还处于试验阶段，容易出错。公开测试版的根本目的是征求开发人员的反馈，以快速提高 API 的性能。

“我们训练克劳德观察屏幕上发生的事情，然后使用可用的软件工具来执行任务，”Anthropic 在博客文章中写道。 “当开发人员要求克劳德使用一款计算机软件并为其提供必要的访问权限时，克劳德会查看用户可见内容的屏幕截图，然后计算移动光标需要垂直或水平多少像素才能单击正确的地方。”

本质上，它是一个人工智能代理。也就是说，它是一种可以自动化其他软件流程的人工智能，无论是生成和鉴定营销线索、发现医疗数据的模式和趋势，还是简单地导航到特定网站并填写您需要的表格。将它们视为现有机器人过程自动化系统的更高级版本。

该公司将 Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 列为该新功能的早期采用者。例如，根据公告，Replit 正在使用 Computer Control 来“开发一项关键功能，用于评估为其 Replit Agent 产品构建的应用程序”。

正如 Anthropic 所解释的那样，我们还没有必要担心人工智能会通过天网攻击我们。 “人类通过提供指导克劳德行动的具体提示来保持控制，例如‘使用我的计算机和在线数据填写此表格’，”一位 Anthropic 发言人告诉TechCrunch 。 “人们根据需要启用访问并限制访问。克劳德将用户的提示分解为计算机命令（例如，移动光标、单击、键入）来完成特定任务。”

Anthropic 还承认，计算机控制可能会被滥用来生成垃圾邮件、传播错误信息或实施欺诈。作为回应，该公司开发了新的分类器，可以识别 API 何时被使用以及该使用是否“造成伤害”。

Posted

22 10 月, 2024

blog

技術新聞普遍器

Tags: