OpenAI 展示其“突破性”的下一代 o3 推理模型

在为期12 天的 OpenAI直播活动的最后，首席执行官 Sam Altman 透露了其下一个基础模型，以及最近宣布的o1 系列推理 AI 的后继者，称为 o3 和 03-mini。

不，你不会发疯的——OpenAI 直接跳过了 o2，显然是为了避免侵犯英国电信提供商 O2 的版权。

虽然新的 o3 模型尚未向公众发布，也没有关于何时将其纳入ChatGPT 的消息，但它们现在可供安全研究人员进行测试。

o3 是我们最新的推理模型，是一项突破，在我们最难的基准测试中进行了阶跃函数改进。我们正在开始安全测试和现在红队。 https://t.co/4XlK1iHxFK
—格雷格·布罗克曼 (@gdb) 2024 年 12 月 20 日

o3 系列与之前的 o1 一样，其运作方式与传统生成模型不同，因为它们会在将响应呈现给用户之前对其进行内部事实检查。虽然这种技术会降低模型的响应时间，从几秒到几分钟不等，但它对复杂的科学、数学和编码查询的答案往往比从GPT-4获得的答案更加准确和可靠。此外，该模型实际上能够透明地解释其如何得出结果的推理。

用户还可以通过在低、中和高计算之间进行选择来手动调整模型考虑问题所花费的时间，最高设置会返回最完整的答案。请注意，这种性能并不便宜。 ARC-AGI 联合创始人 Francois Chollet 周五在 X 帖子中写道，据报道，高计算处理每项任务将花费数千美元。

今天 OpenAI 发布了其下一代推理模型 o3。我们与 OpenAI 合作在 ARC-AGI 上对其进行了测试，我们相信它代表了人工智能适应新任务的重大突破。
它在低计算模式下的半私有评估中得分为 75.7%（每个任务 20 美元…… pic.twitter.com/ESQ9CNVCEA
—弗朗索瓦·乔莱 (@fchollet) 2024 年 12 月 20 日

据报道，在业界最具挑战性的基准测试中，新的推理模型系列的性能甚至比9 月份推出的o1 显着提高。据该公司称，o3 在 SWE-Bench Verified 编码测试中比其前身高出近 23 个百分点，并且在 Codeforce 基准测试中的得分比 o1 高出 60 多分。新模型在 AIME 2024 数学测试中也取得了令人印象深刻的 96.7% 的成绩，仅漏掉一题，并在 GPQA Diamond 上超越了人类专家，得分为 87.7%。更令人印象深刻的是，据报道 03 解决了 EpochAI Frontier Math 基准测试中超过四分之一的问题，而其他模型则难以正确解决其中超过 2% 的问题。

OpenAI 确实指出，周五预览的模型仍然是早期版本，“最终结果可能会随着更多的后期训练而变化。”该公司还在 o3 的培训方法中纳入了新的“慎重调整”安全措施。 o1 推理模型表现出了一种令人不安的习惯，即试图以比 GPT-4o、Gemini 或 Claude 等传统人工智能更高的速度欺骗人类评估者； OpenAI 相信新的护栏将有助于最大限度地减少 o3 中的这些倾向。

有兴趣亲自尝试 o3-mini 的研究社区成员可以在OpenAI 的候补名单上注册访问。

Posted

21 12 月, 2024

blog

技術新聞普遍器

Tags: