OpenAI 的新人工智能视频令人大吃一惊

一幅人工智能图像描绘了两只猛犸象在雪地里行走，背景是山脉和森林。 — 开放人工智能

OpenAI 在人工智能方面的最新尝试可能是迄今为止最令人印象深刻的一次。这种新的文本到视频人工智能模型被称为“Sora”，刚刚向有限数量的用户开放了测试它的大门。该公司通过展示几个完全由人工智能制作的视频来推出它，最终结果令人震惊地真实。

OpenAI介绍Sora时称，它可以根据文字提示创建逼真的场景，其网站上分享的视频证明了这一点。提示是描述性的，但很简短；我个人在与ChatGPT交互时使用了较长的提示。例如，为了生成上图所示的猛犸象视频，Sora 需要一个 67 字的提示来描述动物、周围环境和摄像机的位置。

隆重介绍 Sora，我们的文本转视频模型。
Sora 可以创建长达 60 秒的视频，其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。 https://t.co/7j2JN27M3W
提示：“美丽，白雪皑皑…… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) 2024 年 2 月 15 日

OpenAI 在其声明中表示：“Sora 可以生成长达一分钟的视频，同时保持视觉质量并遵守用户的提示。”人工智能可以生成充满许多人物、风景和准确动作的复杂场景。为此，OpenAI 表示 Sora 可以根据需要进行预测和解读字里行间。

OpenAI 表示：“该模型不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中的存在方式。”该模型不仅处理角色、服装或背景，还创建“表达充满活力的情感的引人注目的角色”。

Sora 还可以填补现有视频中的空白或使其更长，以及根据图像生成视频，因此这不仅仅是文字提示。

虽然这些视频作为静态截图看起来不错，但它们的动态却令人兴奋不已。 OpenAI 提供了各种各样的视频来展示新技术，包括赛博朋克风格的东京街道和淘金热期间加州的“历史镜头”。还有更多，包括人眼的特写。提示涵盖从卡通到野生动物摄影的任何内容。

空还是犯了一些错误。例如，仔细观察就会发现，人群中有些人没有头，动作也很奇怪。在一些样本中，这种尴尬的动作乍一看很明显，但一般的奇怪之处需要多次观察才能发现。

OpenAI 向公众开放 Sora 可能还需要一段时间。目前，该模型将由红队成员进行测试，他们将评估潜在风险。一些创作者现在也将开始测试它，而它仍处于开发的早期阶段。

人工智能仍然不完美，所以我开始期待一些相当混乱的事情。无论是低期望还是 Sora 的能力，我离开时都印象深刻，但也有点担心。我们已经生活在一个很难辨别真假的世界，现在，不仅图像处于危险之中，视频也处于危险之中。然而，Sora 并不是我们见过的第一个文本转视频模型，例如 Pika 。

其他人也纷纷举旗，比如热门科技 YouTuber 马克斯·布朗利 (Marques Brownlee )，他在推特上回应 Sora 视频时表示，“如果这至少让你一点点都不担心，那就没有什么可以让你担心了”。

这些视频中的每一个都是人工智能生成的，如果这至少让你一点也不担心，那么什么都不会
最新型号： https://t.co/zkDWU8Be9S
（还记得威尔史密斯吃意大利面条吗？我有很多问题） pic.twitter.com/TQ44wvNlQw
—马克斯·布朗利 (@MKBHD) 2024 年 2 月 15 日

如果 OpenAI 的 Sora 现在已经这么好了，很难想象经过几年的进一步开发和测试它会具有什么样的能力。这种技术有可能取代许多工作，但希望它能像 ChatGPT 一样与人类专业人士共存。