OpenAI 在人工智能方面的最新尝试可能是迄今为止最令人印象深刻的一次。这种新的文本到视频人工智能模型被称为“Sora”,刚刚向有限数量的用户开放了测试它的大门。该公司通过展示几个完全由人工智能制作的视频来推出它,最终结果令人震惊地真实。
OpenAI介绍Sora时称,它可以根据文字提示创建逼真的场景,其网站上分享的视频证明了这一点。提示是描述性的,但很简短;我个人在与ChatGPT交互时使用了较长的提示。例如,为了生成上图所示的猛犸象视频,Sora 需要一个 67 字的提示来描述动物、周围环境和摄像机的位置。
隆重介绍 Sora,我们的文本转视频模型。
Sora 可以创建长达 60 秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。 https://t.co/7j2JN27M3W
提示:“美丽,白雪皑皑…… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) 2024 年 2 月 15 日
OpenAI 在其声明中表示:“Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。”人工智能可以生成充满许多人物、风景和准确动作的复杂场景。为此,OpenAI 表示 Sora 可以根据需要进行预测和解读字里行间。
OpenAI 表示:“该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。”该模型不仅处理角色、服装或背景,还创建“表达充满活力的情感的引人注目的角色”。
Sora 还可以填补现有视频中的空白或使其更长,以及根据图像生成视频,因此这不仅仅是文字提示。
虽然这些视频作为静态截图看起来不错,但它们的动态却令人兴奋不已。 OpenAI 提供了各种各样的视频来展示新技术,包括赛博朋克风格的东京街道和淘金热期间加州的“历史镜头”。还有更多,包括人眼的特写。提示涵盖从卡通到野生动物摄影的任何内容。
空还是犯了一些错误。例如,仔细观察就会发现,人群中有些人没有头,动作也很奇怪。在一些样本中,这种尴尬的动作乍一看很明显,但一般的奇怪之处需要多次观察才能发现。
OpenAI 向公众开放 Sora 可能还需要一段时间。目前,该模型将由红队成员进行测试,他们将评估潜在风险。一些创作者现在也将开始测试它,而它仍处于开发的早期阶段。
人工智能仍然不完美,所以我开始期待一些相当混乱的事情。无论是低期望还是 Sora 的能力,我离开时都印象深刻,但也有点担心。我们已经生活在一个很难辨别真假的世界,现在,不仅图像处于危险之中,视频也处于危险之中。然而,Sora 并不是我们见过的第一个文本转视频模型,例如 Pika 。
其他人也纷纷举旗,比如热门科技 YouTuber 马克斯·布朗利 (Marques Brownlee ),他在推特上回应 Sora 视频时表示,“如果这至少让你一点点都不担心,那就没有什么可以让你担心了”。
这些视频中的每一个都是人工智能生成的,如果这至少让你一点也不担心,那么什么都不会
最新型号: https://t.co/zkDWU8Be9S
(还记得威尔史密斯吃意大利面条吗?我有很多问题) pic.twitter.com/TQ44wvNlQw
—马克斯·布朗利 (@MKBHD) 2024 年 2 月 15 日
如果 OpenAI 的 Sora 现在已经这么好了,很难想象经过几年的进一步开发和测试它会具有什么样的能力。这种技术有可能取代许多工作,但希望它能像 ChatGPT 一样与人类专业人士共存。