OpenAI 展示其“突破性”的下一代 o3 推理模型

Sam Altman 描述 o3 模型的功能
开放人工智能

在为期12 天的 OpenAI直播活动的最后,首席执行官 Sam Altman 透露了其下一个基础模型,以及最近宣布的o1 系列推理 AI 的后继者,称为 o3 和 03-mini。

不,你不会发疯的——OpenAI 直接跳过了 o2,显然是为了避免侵犯英国电信提供商 O2 的版权。

虽然新的 o3 模型尚未向公众发布,也没有关于何时将其纳入ChatGPT 的消息,但它们现在可供安全研究人员进行测试。

o3 系列与之前的 o1 一样,其运作方式与传统生成模型不同,因为它们会在将响应呈现给用户之前对其进行内部事实检查。虽然这种技术会降低模型的响应时间,从几秒到几分钟不等,但它对复杂的科学、数学和编码查询的答案往往比从GPT-4获得的答案更加准确和可靠。此外,该模型实际上能够透明地解释其如何得出结果的推理。

用户还可以通过在低、中和高计算之间进行选择来手动调整模型考虑问题所花费的时间,最高设置会返回最完整的答案。请注意,这种性能并不便宜。 ARC-AGI 联合创始人 Francois Chollet 周五在 X 帖子中写道,据报道,高计算处理每项任务将花费数千美元。

据报道,在业界最具挑战性的基准测试中,新的推理模型系列的性能甚至比9 月份推出的o1 显着提高。据该公司称,o3 在 SWE-Bench Verified 编码测试中比其前身高出近 23 个百分点,并且在 Codeforce 基准测试中的得分比 o1 高出 60 多分。新模型在 AIME 2024 数学测试中也取得了令人印象深刻的 96.7% 的成绩,仅漏掉一题,并在 GPQA Diamond 上超越了人类专家,得分为 87.7%。更令人印象深刻的是,据报道 03 解决了 EpochAI Frontier Math 基准测试中超过四分之一的问题,而其他模型则难以正确解决其中超过 2% 的问题。

OpenAI 确实指出,周五预览的模型仍然是早期版本,“最终结果可能会随着更多的后期训练而变化。”该公司还在 o3 的培训方法中纳入了新的“慎重调整”安全措施。 o1 推理模型表现出了一种令人不安的习惯,即试图以比 GPT-4o、Gemini 或 Claude 等传统人工智能更高的速度欺骗人类评估者; OpenAI 相信新的护栏将有助于最大限度地减少 o3 中的这些倾向。

有兴趣亲自尝试 o3-mini 的研究社区成员可以在OpenAI 的候补名单上注册访问。


Posted

in

by

Tags: