这就是为什么人们认为 GPT-4 随着时间的推移可能会变得越来越愚蠢

尽管GPT-4发布时令人印象深刻，但一些旁观者发现它已经失去了一些准确性和功能。这些观察结果已经在网上发布了几个月，包括在OpenAI 论坛上。

这些感觉已经存在了一段时间，但现在我们可能终于有了证据。与斯坦福大学和加州大学伯克利分校合作进行的一项研究表明，GPT-4 的响应能力不但没有提高，反而随着语言模型的进一步更新而变得更糟。

随着时间的推移，GPT-4 变得越来越糟，而不是更好。
许多人报告说注意到模型响应的质量显着下降，但到目前为止，这都是轶事。
但现在我们知道了。
至少一项研究表明，GPT-4 的 6 月版本客观上比……更糟糕pic.twitter.com/whhELYY6M4
—圣地亚哥 (@svpino) 2023 年 7 月 19 日

这项研究名为“ChatGPT 的行为如何随时间变化？” ，在 3 月至 6 月期间测试了 GPT-4 与先前语言版本 GPT-3.5 之间的能力。研究人员用 500 个问题的数据集测试这两个模型版本，发现 GPT-4 在 3 月份的准确率达到了 97.6%，有 488 个正确答案，而在 GPT-4 经过一些更新后，6 月份的准确率只有 2.4%。几个月后，该模型仅给出了 12 个正确答案。

研究人员使用的另一个测试是思维链技术，他们询问 GPT-4 17,077 是素数吗？一个推理问题。研究人员表示，GPT-4 不仅错误地回答了“否”，而且没有解释如何得出这个结论。

就在这项研究发布的六天前，一名 OpenAI 高管试图平息人们对 GPT-4 实际上变得越来越愚蠢的怀疑。下面的推文暗示答案质量的下降是重度用户造成的一种心理现象。

不，我们并没有让 GPT-4 变得更愚蠢。恰恰相反：我们让每个新版本都比前一个版本更智能。
目前的假设：当您更频繁地使用它时，您会开始注意到以前没有看到的问题。
—彼得·韦林德 (@npew) 2023 年 7 月 13 日

值得注意的是，GPT-4 目前可供开发者或付费会员通过ChatGPT Plus使用。像我一样通过ChatGPT免费研究预览向 GPT-3.5 提出同样的问题，你不仅能得到正确答案，还能得到数学过程的详细解释。

此外，LeetCode 的开发人员发现代码生成在 3 月到 6 月期间在其包含 50 个简单问题的数据集上的准确率从 52% 下降到了 10%。

Twitter 评论员 @svpino 指出，有传言称 OpenAI 可能会使用“更小型且专门的 GPT-4 模型，其行为与大型模型类似，但运行成本更低”，这更是火上浇油。

当母公司有许多其他大型组织依赖其技术进行协作时，这种更便宜和更快的选择可能会导致 GPT-4 响应质量下降。

不过，并不是所有人都认为这项研究能证明什么。一些人指出，行为的改变并不等于能力的下降。研究本身也承认了这一点，并指出“具有某种功能的模型可能会也可能不会根据特定提示显示该功能。”换句话说，获得期望的结果可能需要来自用户的不同类型的提示。

当 GPT-4 首次发布时，OpenAI 详细介绍了其使用 Microsoft Azure AI 超级计算机来训练语言模型六个月的情况，声称结果是生成“用户提示所需信息”的可能性提高了 40% 。

基于 GPT-3.5 LLM 的 ChatGPT因其信息挑战而闻名，例如对 2021 年之后的世界事件的了解有限，这可能导致它用不正确的数据来填补空白。然而，信息回归似乎是该服务从未见过的全新问题。用户期待更新以解决已接受的问题。

在美国联邦贸易委员会对 ChatGPT 是否违反消费者保护法展开调查后，OpenAI 首席执行官 Sam Altman最近在一条推文中表达了他的失望之情。

“我们对技术的局限性非常透明，尤其是当我们存在不足时。我们的利润上限结构意味着我们没有动力去获得无限的回报，”他在推特上写道。