OpenAI 先进的“Project Strawberry”模型终于到来

百科全书中手机上的 chatGPT
尚塔努·库马尔 / Pexels

经过数月的猜测和期待,OpenAI 发布了其高级推理模型Project Strawberry的量产版,并已更名为“o1”。它加入了一个“迷你”版本(就像 GPT-4o 一样),它将提供更快、响应更灵敏的交互,但代价是利用更大的知识库。

看来 o1 提供了多种技术进步。它是 OpenAI 推理模型系列中的第一个,旨在使用类人推理来比人类更快地回答有关科学、编码和数学等学科的复杂问题。

例如,在测试过程中,o1 接受了国际数学奥林匹克资格考试。虽然其前身GPT-4o只正确解决了 13% 的问题,但 o1 正确解决了 83% 的问题。在 Codeforces 在线竞赛中,o1 的得分排在第 89 位。更重要的是,o1 可以响应困扰以前模型的查询(例如,“9.11 和 9.9 哪个更大?”)。然而,该公司明确表示,此版本只是新手模型全部功能的预览。

OpenAI 的研究负责人 Jerry Tworek 告诉The Verge新的 o1“已经使用全新的优化算法和专门为其定制的新训练数据集进行了训练”。据报道,o1 将强化学习和“思想链”推理相结合,返回的推论比其前身更准确。 “我们注意到这个模型的幻觉较少,”特沃雷克说,“但是,我们不能说我们解决了幻觉。”

从今天开始,ChatGPT-Plus 和 Teams 订阅者都可以测试 o1 和 o1-mini。 Enterprise 和 Edu 订阅者应该可以在下周之前访问。

该公司表示,o1-mini 最终将向免费用户开放,但没有具体说明时间表。与 GPT-4o 相比,开发人员会注意到 o1 的 API 定价急剧上涨。访问 o1 的费用为每百万个输入代币 15 美元(GPT-4o 的每百万个代币为 5 美元),每百万个输出代币 60 美元,是 4o 的每百万个 5 美元费用的四倍。真正的问题是新模型是否认为“strawberry”这个词包含两个 R 还是三个 R。


Posted

in

by

Tags: