AI现在正在接受AI的训练，成为更好的AI

OpenAI 开发了一款名为CriticGPT 的人工智能助手，以帮助其众包培训师进一步完善GPT-4模型。它可以发现人类可能会错过的细微编码错误。

像 GPT-4 这样的大型语言模型经过最初的训练后，随后会经历一个持续的细化过程，称为人类反馈强化学习(RLHF)。人类培训师与系统交互，注释对各种问题的回答，并对各种回答进行相互评分，以便系统学会返回首选响应并提高模型的响应准确性。

问题在于，随着系统性能的提高，它可能会超过培训师的专业水平，并且识别错误和差错的过程变得越来越困难。

请注意，这些人工智能培训师并不总是主题专家。去年， OpenAI 被发现将工作量众包给肯尼亚工人，并支付给他们每小时不到 2 美元，以提高其模型的性能。

当完善系统的代码生成功能时，这个问题尤其困难，这就是 CriticGPT 的用武之地。

“我们训练了一个基于 GPT-4 的模型，称为 CriticGPT，来捕获 ChatGPT 代码输出中的错误，”该公司在周四的博客文章中解释道。 “我们发现，当人们从 CriticGPT 获得帮助来审查 ChatGPT 代码时，他们在 60% 的情况下表现优于那些没有帮助的人。”

更重要的是，该公司发布了一份关于该主题的白皮书，题为“ LLM批评者帮助捕获LLM错误”，其中发现“LLM捕获的插入错误比合格的人类支付的代码审查要多得多，而且模型批评比人类批评更受青睐”超过80%的时间。”

有趣的是，研究还发现，当人类与 CriticGPT 合作时，AI 的幻觉反应率低于 CriticGPT 单独完成工作时，但幻觉反应率仍然高于人类单独完成工作时的幻觉率。

Posted

28 6 月, 2024

技術新聞普遍器

Tags: