这就是为什么人们声称 GPT-4 又好了

在指责 GPT-4 变得“懒惰”、“愚蠢”，并且在 11 月底社交媒体上流传的 ChatGPT 聊天机器人出现了超出正常范围的错误之后，OpenAI 似乎正忙于清理其 GPT 语言模型。

根据 ChatGPT 本身的一些回应，一些人甚至猜测 GPT-4.5 已经秘密向某些用户推出。不管这是否属实，GPT-4 过去肯定发生了一些积极的内部变化。

更多 GPU，更好的性能？

早在上周四就有大量帖子注意到 GPT-4 性能的改进。沃顿商学院教授 Ethan Mollick 此前曾对 11 月份 GPT-4 性能急剧下滑发表评论，他也指出该模型的复苏，但他自己没有看到任何转向 GPT-4.5 的证据。在经历了 ChatGPT-4“数周以来不可靠且有点沉闷”之后，他一直使用代码解释器来修复他的代码，他将这种变化描述为“日夜兼程，无论是速度还是答案质量”。

与此同时，OpenAI 于上周三悄然重新开放了其ChatGPT Plus 订阅，该订阅自 11 月 14 日起就已停止注册。Altman 在 X 帖子中表示，“感谢您的耐心等待，我们找到了更多 GPU。”

目前尚不清楚 ChatGPT Plus 注册的恢复与 GPT-4 的改进之间是否存在相关性，但时机很有趣。值得注意的是，付费版本的注册在 OpenAI 首届 DevDay 开发者大会后不久就结束了，该公司在会上为 AI 聊天机器人的付费版本推出了一系列新功能。由于 DevDay 后的注册量超出了该服务处理功能的能力，该公司为 ChatGPT Plus 订阅设置了等候名单。

此后不久，用户开始报告 GPT-4 的异常行为，超出了已知的传统 AI 俏皮话。一种常见的抱怨是 GPT-4 会“顶嘴”用户，或者需要对命令进行多种解释才能执行查询。另一个抱怨是该模型会向用户解释如何执行他们的命令而不是执行任务。

GPT-4 的退化至少可以追溯到 7 月，当时一项研究观察到 3 月至 6 月期间准确性急剧下降。包括 OpenAI 产品副总裁 Peter Welinder 在内的许多人都表示，随着模型的进一步更新，答案质量可能会作为一种心理现象出现不足。一些人补充说，用户可能会从更改查询以获得所需结果中受益。

尽管 OpenAI 在很大程度上对其内部运作保持沉默，但 Altman 关于 GPU 的 X 帖子很可能是幕后发生的事情的一个重要指标。 4 月份的报告显示，OpenAI 将需要超过 30,000 个 GPU 单元才能在今年剩余时间内维持其商业性能。那是在 11 月份兴趣飙升之前。

秘密 GPT-4.5 测试还是只是幻觉？

除此之外，随着有关潜在新 GPT 版本的其他一些细节的泄露，有关 GPT-4.5 的猜测也随之增加。

@therundownai 时事通讯的创始人Rowan Cheung最近在 X（以前称为 Twitter）上分享了 OpenAI 正在开发的新 GPT-4.5 模型的定价细节。详细信息包括新的定价等级和有关高级多式联运功能的信息。

张通过社交媒体平台询问 OpenAI 首席执行官萨姆·奥尔特曼 (Sam Altman) 有关泄密事件的真实性，他回答说：“不。”

GPT 4.5 的猜测始于周四，一张“泄露”的图片显示了新的 GPT-4.5 模型，具有新的先进多模式功能和新的定价。
然而，萨姆·奥尔特曼评论说“不”。当被问到传闻是否属实时。
但故事还有更多…… pic.twitter.com/iUJkFUqTMh
—罗文·张 (@rowancheung) 2023 年 12 月 18 日

然而，一些处理过拟议更新的用户确信他们正在使用 GPT-4.5，并且它是新的并且比以往更好。有些人询问聊天机器人，他们认为该聊天机器人正在运行 GPT-4，它的型号是什么，它回答说“GPT-4.5 Turbo”。

这让许多人相信 OpenAI 一直在测试 GPT-4.5，主要是在其移动应用程序上，希望避开精明的用户。然而，并不是每个人都能重现这些结果，模型会告诉他们最新版本只是 GPT-4。 OpenAI 员工 Will Depue 也对此事发表了评论，称其为“非常奇怪且奇怪的一致幻觉”。

Cheung 注意到 ChatGPT X 官方页面上的一篇帖子，其中有大脑和头在云中的表情符号，他认为这是 OpenAI 模糊地重申这些反应是幻觉的方式。

值得注意的是，OpenAI 为其付费用户提供早期独家访问权限，其中包括ChatGPT Plus用户、开发者 API 用户和企业用户。当功能发布时，他们将最先体验最新的 GPT 版本及其功能。许多修补模型并注意到细微变化的人可能拥有某种形式的开发人员 API 访问权限，或者正在使用该服务来测试代码并与公众分享他们的输入。

即使 OpenAI 正在测试 GPT-4.5，也无法确定何时会进行更新，尤其是当该公司正在从服务和组织不稳定中稳定下来时。此外，该公司和产品仍然是新的，目前还不清楚常规更新周期是什么样的。目前，我认为我们使用的 ChatGPT 的“版本”并不重要，因为这些改进看起来是真实的。