这就是为什么人们说 GPT-4 变得“懒惰”

11 月份的大部分时间里,OpenAI 及其技术一直处于丑闻之中。在 CEO Sam Altman 的迅速解雇和重新聘用以及ChatGPT Plus 付费订阅停止的奇怪案例之间,OpenAI 数周以来一直是人工智能行业的新闻焦点。

现在,人工智能爱好者重新讨论了一个问题,许多人想知道随着语言模型的继续训练,GPT-4是否变得“懒惰”。许多使用它来加速更密集任务的人已经在 X(以前的 Twitter)上表达了他们对所感知到的变化的不满。

OpenAI 对 GPT-4 的安全性足够高,以至于它变得懒惰和无能。

转换这个文件?太长。写个表?这是前三行。阅读此链接?抱歉不能。读取这个py文件?哎呀不允许。

太令人沮丧了。

—罗希特 (@krishnanrohit) 2023 年 11 月 28 日

X 上的 Rohit Krishnan详细介绍了他在使用 GPT-4 时遇到的一些问题,GPT-4 是 ChatGPT Plus(ChatGPT 的付费版本)背后的语言模型。他解释说,当他之前能够得到详细答复时,聊天机器人拒绝了他的几个查询,或者给了他请求的删节版本。他还指出,语言模型将使用指示之外的工具,例如当提示要求使用代码解释器时的 Dall-E。克里希南还讽刺地补充说,“错误分析”是语言模型表达“AFK(远离键盘),几个小时后回来”的方式。

X 上的 Matt Wensing详细介绍了他的实验,他要求ChatGPT Plus列出从现在到 2024 年 5 月 5 日之间的日期列表,聊天机器人需要额外的信息,例如这些日期之间的周数,然后才能完成初始任务。

沃顿商学院教授 Ethan Mollick 在将序列与他 7 月份运行的代码解释器与周二的最新查询进行比较后,也分享了他对 GPT-4 的观察。他得出的结论是,GPT-4 仍然是有知识的,但指出它向他解释了如何修复他的代码,而不是实际修复代码。本质上,他必须完成他要求 GPT-4 完成的工作。尽管 Mollick 无意批评该语言,但他的观察结果与其他人所描述的 GPT-4 的“顶嘴”是一致的。

众所周知, ChatGPT会对它不知道的信息产生幻觉答案,但这些错误似乎远远超出了人工智能聊天机器人的常见错误。 GPT-4 于 3 月份推出,但早在 7 月份,有关该语言模型变得“愚蠢”的报道就开始浮出水面。与斯坦福大学和加州大学伯克利分校合作进行的一项研究发现,仅在 3 月到 6 月期间,GPT-4 的准确率就从 97.6% 下降到 2.4%。它详细说明,ChatGPT 的付费版本无法提供数学方程的正确答案和详细解释,而仍然运行较旧的 GPT 3.5 模型的非付费版本给出了正确答案和数学过程的详细解释。

在那段时间,OpenAI 产品副总裁 Peter Welinder 表示,大量用户可能会经历一种心理现象,即答案的质量可能会随着时间的推移而下降,而实际上语言模型实际上变得更加高效。

人们一直在讨论 GPT-4 是否已经变得“懒惰”了。最近。我的轶事测试表明这可能是真的。

我重复了使用代码解释器所做的一系列旧分析。 GPT-4 仍然知道该做什么,但一直告诉我去做这项工作。一步现在很多&有些很奇怪。 pic.twitter.com/OhGAMtd3Zq

—伊森·莫里克 (@emollick) 2023 年 11 月 28 日

根据莫里克的说法,当前的问题可能同样是暂时的,并且是由于系统过载或提示样式的变化而引起的,而这些变化对用户来说并不明显。值得注意的是,在首届 DevDay 开发者大会推出了 AI 聊天机器人付费版的一系列新功能后,人们对该服务的兴趣激增,OpenAI 称系统过载是导致 ChatGPT Plus 注册关闭的原因。 ChatGPT Plus 仍有等候名单。这位教授还补充说,移动设备上的 ChatGPT 使用不同的提示风格,这会导致“更简短、更切题的答案”。

Yacine on X 详细说明,由于指令依从性下降,最新 GPT-4 模型的不可靠性导致他们回到传统编码,并补充说他们计划创建本地代码 LLM 以重新获得对模型参数的控制。其他用户提到在语言模型衰落的过程中选择开源选项。

同样,Reddit 用户 Mindless-Ad8595 解释说,最近对 GPT-4 的更新使其变得过于智能,不利于其自身的利益。 “它没有预定义的‘路径’来指导其行为,这使得它具有令人难以置信的多功能性,但默认情况下也有些无方向性,”他说。

程序员建议用户创建专门针对任务或应用程序的自定义 GPT,以提高模型输出的效率。他没有为 OpenAI 生态系统中的用户提供任何实用的解决方案。

应用程序开发人员 Nick Dobos 分享了他处理 GPT-4 事故的经验,并指出当他提示 ChatGPT在 SwiftUI 中编写 pong时,他在代码中发现了各种占位符和待办事项。他补充说,即使收到其他指示,聊天机器人也会忽略命令并继续将这些占位符和待办事项插入代码中。一些 X 用户通过他们自己的带有占位符和待办事项的代码示例证实了类似的经历。 Dobos 的帖子引起了一名 OpenAI 员工的注意,他表示他们会将示例转发给公司的开发团队进行修复,并承诺在此期间分享任何更新。

总体而言,对于 GPT-4 目前出现并发症的原因还没有明确的解释。用户在网上讨论他们的经历提出了许多想法。其中包括 OpenAI 合并模型、同时运行 GPT-4 和 GPT-4 Turbo 导致服务器持续过载、公司试图通过限制结果来节省资金等。

众所周知,OpenAI 的运行成本极其昂贵。 2023 年 4 月,研究人员表示,每天需要花费 70 万美元,即每次查询 36 美分,才能维持 ChatGPT 的运行。行业分析师当时详细说
明,OpenAI 必须将其 GPU 群扩大 30,000 台,才能在今年剩余时间内保持其商业性能。除了为其所有合作伙伴提供计算之外,这还需要支持 ChatGPT 流程。

在等待 GPT-4 性能稳定的同时,用户们互相打趣,谈论 X 上的情况。

“接下来你就会知道它会请病假,”索思里说。

“很多回复都是‘剩下的就交给你了。’”不,剩下的你来做,” 加内特先生说。

有关该问题的回复和帖子的数量绝对不容忽视。我们必须拭目以待,看看 OpenAI 能否在未来的更新中正面解决这个问题。


Posted

in

by

Tags: