GPT-4o 和 Gemini 1.5 Pro 刚刚在 AI 竞赛中被击败

从技术上来说，在人工智能助手主导地位的竞争中出现了一位新的领导者，它就是 Anthropic 的新 Claude 3.5 Sonnet。该公司周四宣布，新发布的型号在一系列基准测试中均优于 Gemini 1.5 Pro 和 ChatGPT-4o。

Sonnet 的这一新版本是 Anthropic 即将推出的 3.5 型号系列中的第一款，它的性能显着优于更广泛的 Opus 3.0 型号，并且能源成本只是较大型号的一小部分。计算效率正在成为人工智能系统设计中越来越重要的一个方面，特别是随着人工智能数据中心的供电和冷却成本飙升，而基础设施已达到千兆瓦级。

“Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍，”Anthropic 团队在博客文章中写道。 “这种性能提升，加上具有成本效益的定价，使 Claude 3.5 Sonnet 成为复杂任务的理想选择，例如上下文相关的客户支持和编排多步骤工作流程。”

据报道，新模型在三项标准化测试中设定了基准结果：研究生水平的推理（GPQA）、本科水平的知识（MMLU）以及编码能力（ HumanEval）。它击败了 Google 的 Gemini 1.5 Pro、Meta 的 Llama-400b 和 OpenAI 的 ChatGPT-4o，尽管差距不是很大，通常只有几个百分点。

该表格显示了 Claude 3.5 Sonnet 与其他领先人工智能系统相比的性能。 — 人择

Sonnet 3.5 被宣传为 Anthropic 的“迄今为止最强的视觉模型”。它能够比 Opus 3.0 更准确地执行许多基于视觉的任务，例如解释图表和图表，或者从屏幕截图或扫描收据等不完美的图像源转录文本。事实上，在行业标准视觉基准测试中，Sonnet 3.5 比 Opus 3.0 领先 6 到 17 个百分点。据报道，新模型在处理幽默方面也更有能力，并且可以以更逼真的方式交谈。

Sonnet 也将成为第一个为用户提供 Artifacts 功能的 Anthropic AI。 Artifacts 不会直接在对话流程中生成图像或代码片段，而是在聊天一侧的专用空间中创建该内容。 Anthropic 团队声称，这允许用户创建“一个动态工作空间，他们可以在其中实时查看、编辑和构建 Claude 的创作，将人工智能生成的内容无缝集成到他们的项目和工作流程中”。它还宣布，克劳德将很快支持团队协作，公司可以将其数据、文档和项目存储在一个中央筒仓中，克劳德将充当按需助理。

您今天可以在 Claude.ai 网站和 Claude iOS 应用程序上免费试用 Claude 3.5 Sonnet（Claude Pro 或 Team 订阅将为您带来更高的速率限制）。还可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 进行第三方集成。 Claude Haiku 3.5 和 Opus 3.5 计划于今年晚些时候发布。