这就是为什么人们认为 GPT-4 随着时间的推移可能会变得越来越愚蠢

尽管GPT-4发布时令人印象深刻,但一些旁观者发现它已经失去了一些准确性和功能。这些观察结果已经在网上发布了几个月,包括在OpenAI 论坛上。

这些感觉已经存在了一段时间,但现在我们可能终于有了证据。与斯坦福大学和加州大学伯克利分校合作进行的一项研究表明,GPT-4 的响应能力不但没有提高,反而随着语言模型的进一步更新而变得更糟。

随着时间的推移,GPT-4 变得越来越糟,而不是更好。

许多人报告说注意到模型响应的质量显着下降,但到目前为止,这都是轶事。

但现在我们知道了。

至少一项研究表明,GPT-4 的 6 月版本客观上比……更糟糕pic.twitter.com/whhELYY6M4

—圣地亚哥 (@svpino) 2023 年 7 月 19 日

这项研究名为“ChatGPT 的行为如何随时间变化?” ,在 3 月至 6 月期间测试了 GPT-4 与先前语言版本 GPT-3.5 之间的能力。研究人员用 500 个问题的数据集测试这两个模型版本,发现 GPT-4 在 3 月份的准确率达到了 97.6%,有 488 个正确答案,而在 GPT-4 经过一些更新后,6 月份的准确率只有 2.4%。几个月后,该模型仅给出了 12 个正确答案。

研究人员使用的另一个测试是思维链技术,他们询问 GPT-4 17,077 是素数吗?一个推理问题。研究人员表示,GPT-4 不仅错误地回答了“否”,而且没有解释如何得出这个结论。

ChatGPT 被询问素数。

就在这项研究发布的六天前,一名 OpenAI 高管试图平息人们对 GPT-4 实际上变得越来越愚蠢的怀疑。 下面的推文暗示答案质量的下降是重度用户造成的一种心理现象。

不,我们并没有让 GPT-4 变得更愚蠢。恰恰相反:我们让每个新版本都比前一个版本更智能。

目前的假设:当您更频繁地使用它时,您会开始注意到以前没有看到的问题。

—彼得·韦林德 (@npew) 2023 年 7 月 13 日

值得注意的是,GPT-4 目前可供开发者或付费会员通过ChatGPT Plus使用。像我一样通过ChatGPT免费研究预览向 GPT-3.5 提出同样的问题,你不仅能得到正确答案,还能得到数学过程的详细解释。

此外,LeetCode 的开发人员发现代码生成在 3 月到 6 月期间在其包含 50 个简单问题的数据集上的准确率从 52% 下降到了 10%。

Twitter 评论员 @svpino 指出,有传言称 OpenAI 可能会使用“更小型且专门的 GPT-4 模型,其行为与大型模型类似,但运行成本更低”,这更是火上浇油。

当母公司有许多其他大型组织依赖其技术进行协作时,这种更便宜和更快的选择可能会导致 GPT-4 响应质量下降。

不过,并不是所有人都认为这项研究能证明什么。 一些人指出,行为的改变并不等于能力的下降。研究本身也承认了这一点,并指出“具有某种功能的模型可能会也可能不会根据特定提示显示该功能。”换句话说,获得期望的结果可能需要来自用户的不同类型的提示。

当 GPT-4 首次发布时,OpenAI 详细介绍了其使用 Microsoft Azure AI 超级计算机来训练语言模型六个月的情况,声称结果是生成“用户提示所需信息”的可能性提高了 40%

基于 GPT-3.5 LLM 的 ChatGPT因其信息挑战而闻名,例如对 2021 年之后的世界事件的了解有限,这可能导致它用不正确的数据来填补空白。然而,信息回归似乎是该服务从未见过的全新问题。用户期待更新以解决已接受的问题。

在美国联邦贸易委员会对 ChatGPT 是否违反消费者保护法展开调查后,OpenAI 首席执行官 Sam Altman最近在一条推文中表达了他的失望之情。

“我们对技术的局限性非常透明,尤其是当我们存在不足时。我们的利润上限结构意味着我们没有动力去获得无限的回报,”他在推特上写道。


Posted

in

by

Tags: