ChatGPT 的最新模型可能是性能上的倒退

根据Artificial Analysis的一份新报告,OpenAI 的ChatGPT旗舰大型语言模型 GPT-4o 在最近几周出现了显着的倒退,使最先进的模型的性能与规模小得多且能力明显较差的模型相当, GPT-4o-mini型号。

该分析是在该公司宣布升级 GPT-4o 模型后不到 24 小时发布的。 OpenAI 在 X 上写道:“该模型的创意写作能力得到了提升——更加自然、引人入胜和量身定制的写作,以提高相关性和可读性。它还可以更好地处理上传的文件,提供更深入的见解和更彻底的响应。”现在人们对这些说法是否继续成立存有疑问。

周四, Artificial Analysis 通过 X 帖子宣布:“我们昨天已经完成了对 OpenAI 的 GPT-4o 版本的独立评估,并且始终测量出比 8 月份版本的 GPT-4o 低得多的评估分数”,并指出该模型的人工分析质量指数从 77 下降到 71(现在等于 GPT-4o mini)。

更重要的是,GPT-4o 在 GPQA Diamond 基准上的性能从 51% 下降到 39%,而 MATH 基准上的性能从 78% 下降到 69%。

同时,研究人员发现模型的响应速度增加了一倍多,从每秒约 80 个输出令牌加速到每秒约 180 个令牌。研究人员写道:“我们通常观察到 OpenAI 模型在发布当天的速度明显加快(可能是由于 OpenAI 在采用之前的配置能力),但之前没有看到 2 倍的速度差异。”

“根据这些数据,我们得出的结论是,OpenAI 11 月 20 日发布的 GPT-4o 模型可能比 8 月发布的模型更小,”他们继续说道。 “鉴于 OpenAI 尚未对 11 月 20 日版本进行降价,我们建议开发者在未经仔细测试的情况下,不要将工作负载从 8 月版本转移出去。”

GPT-4o于 2024 年 5 月首次发布,超越现有的GPT-3.5GPT-4模型。据 OpenAI 称,GPT-4o 在语音、多语言和视觉任务方面提供了最先进的基准测试结果,使其成为实时翻译和对话式 AI 等高级应用的理想选择。


Posted

in

by

Tags: