在为期12 天的 OpenAI直播活动的最后,首席执行官 Sam Altman 透露了其下一个基础模型,以及最近宣布的o1 系列推理 AI 的后继者,称为 o3 和 03-mini。
不,你不会发疯的——OpenAI 直接跳过了 o2,显然是为了避免侵犯英国电信提供商 O2 的版权。
虽然新的 o3 模型尚未向公众发布,也没有关于何时将其纳入ChatGPT 的消息,但它们现在可供安全研究人员进行测试。
o3 是我们最新的推理模型,是一项突破,在我们最难的基准测试中进行了阶跃函数改进。我们正在开始安全测试和现在红队。 https://t.co/4XlK1iHxFK
—格雷格·布罗克曼 (@gdb) 2024 年 12 月 20 日
o3 系列与之前的 o1 一样,其运作方式与传统生成模型不同,因为它们会在将响应呈现给用户之前对其进行内部事实检查。虽然这种技术会降低模型的响应时间,从几秒到几分钟不等,但它对复杂的科学、数学和编码查询的答案往往比从GPT-4获得的答案更加准确和可靠。此外,该模型实际上能够透明地解释其如何得出结果的推理。
用户还可以通过在低、中和高计算之间进行选择来手动调整模型考虑问题所花费的时间,最高设置会返回最完整的答案。请注意,这种性能并不便宜。 ARC-AGI 联合创始人 Francois Chollet 周五在 X 帖子中写道,据报道,高计算处理每项任务将花费数千美元。
今天 OpenAI 发布了其下一代推理模型 o3。我们与 OpenAI 合作在 ARC-AGI 上对其进行了测试,我们相信它代表了人工智能适应新任务的重大突破。
它在低计算模式下的半私有评估中得分为 75.7%(每个任务 20 美元…… pic.twitter.com/ESQ9CNVCEA
—弗朗索瓦·乔莱 (@fchollet) 2024 年 12 月 20 日
据报道,在业界最具挑战性的基准测试中,新的推理模型系列的性能甚至比9 月份推出的o1 显着提高。据该公司称,o3 在 SWE-Bench Verified 编码测试中比其前身高出近 23 个百分点,并且在 Codeforce 基准测试中的得分比 o1 高出 60 多分。新模型在 AIME 2024 数学测试中也取得了令人印象深刻的 96.7% 的成绩,仅漏掉一题,并在 GPQA Diamond 上超越了人类专家,得分为 87.7%。更令人印象深刻的是,据报道 03 解决了 EpochAI Frontier Math 基准测试中超过四分之一的问题,而其他模型则难以正确解决其中超过 2% 的问题。
OpenAI 确实指出,周五预览的模型仍然是早期版本,“最终结果可能会随着更多的后期训练而变化。”该公司还在 o3 的培训方法中纳入了新的“慎重调整”安全措施。 o1 推理模型表现出了一种令人不安的习惯,即试图以比 GPT-4o、Gemini 或 Claude 等传统人工智能更高的速度欺骗人类评估者; OpenAI 相信新的护栏将有助于最大限度地减少 o3 中的这些倾向。
有兴趣亲自尝试 o3-mini 的研究社区成员可以在OpenAI 的候补名单上注册访问。