ChatGPT 的最新模型可能是性能上的倒退

根据Artificial Analysis的一份新报告，OpenAI 的ChatGPT旗舰大型语言模型 GPT-4o 在最近几周出现了显着的倒退，使最先进的模型的性能与规模小得多且能力明显较差的模型相当， GPT-4o-mini型号。

该分析是在该公司宣布升级 GPT-4o 模型后不到 24 小时发布的。 OpenAI 在 X 上写道：“该模型的创意写作能力得到了提升——更加自然、引人入胜和量身定制的写作，以提高相关性和可读性。它还可以更好地处理上传的文件，提供更深入的见解和更彻底的响应。”现在人们对这些说法是否继续成立存有疑问。

周四， Artificial Analysis 通过 X 帖子宣布：“我们昨天已经完成了对 OpenAI 的 GPT-4o 版本的独立评估，并且始终测量出比 8 月份版本的 GPT-4o 低得多的评估分数”，并指出该模型的人工分析质量指数从 77 下降到 71（现在等于 GPT-4o mini）。

更重要的是，GPT-4o 在 GPQA Diamond 基准上的性能从 51% 下降到 39%，而 MATH 基准上的性能从 78% 下降到 69%。

同时，研究人员发现模型的响应速度增加了一倍多，从每秒约 80 个输出令牌加速到每秒约 180 个令牌。研究人员写道：“我们通常观察到 OpenAI 模型在发布当天的速度明显加快（可能是由于 OpenAI 在采用之前的配置能力），但之前没有看到 2 倍的速度差异。”

等等——新的 GPT-4o 是一个更小、智能程度更低的型号吗？
昨天，我们已经完成了对 OpenAI 的 GPT-4o 版本的独立评估，并且一直测得的评估分数明显低于 8 月份发布的 GPT-4o。
GPT-4o（11 月）与 GPT-4o（8 月）：
➤… pic.twitter.com/gjY2pBFuUv
—人工分析 (@ArtificialAnlys) 2024 年 11 月 21 日

“根据这些数据，我们得出的结论是，OpenAI 11 月 20 日发布的 GPT-4o 模型可能比 8 月发布的模型更小，”他们继续说道。 “鉴于 OpenAI 尚未对 11 月 20 日版本进行降价，我们建议开发者在未经仔细测试的情况下，不要将工作负载从 8 月版本转移出去。”

GPT-4o于 2024 年 5 月首次发布，超越现有的GPT-3.5和GPT-4模型。据 OpenAI 称，GPT-4o 在语音、多语言和视觉任务方面提供了最先进的基准测试结果，使其成为实时翻译和对话式 AI 等高级应用的理想选择。

Posted

22 11 月, 2024

blog

技術新聞普遍器

Tags: