GPT-4o 和 Gemini 1.5 Pro 刚刚在 AI 竞赛中被击败

克劳德 3.5 十四行诗的屏幕截图,带有 8 位螃蟹
人择

从技术上来说,在人工智能助手主导地位的竞争中出现了一位新的领导者,它就是 Anthropic 的新 Claude 3.5 Sonnet。该公司周四宣布,新发布的型号在一系列基准测试中均优于 Gemini 1.5 Pro 和 ChatGPT-4o。

Sonnet 的这一新版本是 Anthropic 即将推出的 3.5 型号系列中的第一款,它的性能显着优于更广泛的 Opus 3.0 型号,并且能源成本只是较大型号的一小部分。计算效率正在成为人工智能系统设计中越来越重要的一个方面,特别是随着人工智能数据中心的供电和冷却成本飙升,而基础设施已达到千兆瓦级

“Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍,”Anthropic 团队在博客文章中写道。 “这种性能提升,加上具有成本效益的定价,使 Claude 3.5 Sonnet 成为复杂任务的理想选择,例如上下文相关的客户支持和编排多步骤工作流程。”

据报道,新模型在三项标准化测试中设定了基准结果:研究生水平的推理(GPQA) 、本科水平的知识(MMLU)以及编码能力( HumanEval) 。它击败了 Google 的 Gemini 1.5 Pro、Meta 的 Llama-400b 和 OpenAI 的 ChatGPT-4o,尽管差距不是很大,通常只有几个百分点。

该表格显示了 Claude 3.5 Sonnet 与其他领先人工智能系统相比的性能。
人择

Sonnet 3.5 被宣传为 Anthropic 的“迄今为止最强的视觉模型”。它能够比 Opus 3.0 更准确地执行许多基于视觉的任务,例如解释图表和图表,或者从屏幕截图或扫描收据等不完美的图像源转录文本。事实上,在行业标准视觉基准测试中,Sonnet 3.5 比 Opus 3.0 领先 6 到 17 个百分点。据报道,新模型在处理幽默方面也更有能力,并且可以以更逼真的方式交谈。

Sonnet 也将成为第一个为用户提供 Artifacts 功能的 Anthropic AI。 Artifacts 不会直接在对话流程中生成图像或代码片段,而是在聊天一侧的专用空间中创建该内容。 Anthropic 团队声称,这允许用户创建“一个动态工作空间,他们可以在其中实时查看、编辑和构建 Claude 的创作,将人工智能生成的内容无缝集成到他们的项目和工作流程中”。它还宣布,克劳德将很快支持团队协作,公司可以将其数据、文档和项目存储在一个中央筒仓中,克劳德将充当按需助理。

您今天可以在 Claude.ai 网站和 Claude iOS 应用程序上免费试用 Claude 3.5 Sonnet(Claude Pro 或 Team 订阅将为您带来更高的速率限制)。还可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 进行第三方集成。 Claude Haiku 3.5 和 Opus 3.5 计划于今年晚些时候发布。


Posted

in

by

Tags: