谷歌对 OpenAI 推出 Sora 进行反击

谷歌 DeepMind 部门周一推出了第二代Veo 视频生成模型，该模型可以创建长度长达两分钟且分辨率达到 4K 质量的剪辑，其长度是 20 秒/1080p 分辨率剪辑的六倍，分辨率是 20 秒/1080p 分辨率剪辑的四倍索拉可以生成。

当然，这些是 Veo 2 的理论上限。该模型目前仅在 Google 的实验视频生成平台 VideoFX 上可用，其剪辑上限为 8 秒和 720p 分辨率。 VideoFX也已列入候补名单，因此并非任何人都可以登录尝试 Veo 2，尽管该公司宣布将在未来几周内扩大访问范围。谷歌发言人还指出，一旦该公司能够充分扩展该模型的功能，Veo 2 将在 Vertex AI 平台上提供。

“在接下来的几个月里，我们将根据用户的反馈继续进行迭代，”Eli Collins 告诉TechCrunch ，“并且（我们）将寻求将 Veo 2 的更新功能集成到整个 Google 生态系统中引人注目的用例中……我们希望明年分享更多更新。”

今天，我们宣布推出 Veo 2：我们最先进的视频生成模型，可根据文本或图像提示生成逼真的高质量剪辑。
我们还发布了文本到图像模型的改进版本 Imagen 3 – 可通过以下方式在 ImageFX 中使用… pic.twitter.com/h6ejHaMUM4
—谷歌 DeepMind (@GoogleDeepMind) 2024 年 12 月 16 日

据报道，Veo 2 比其前辈拥有许多优势，包括更好地理解物理学（认为更好的流体动力学和更好的照明/阴影效果）以及生成“更清晰”视频剪辑的能力，因为生成的纹理和图像是移动时更清晰且不易模糊。新型号还提供了改进的相机控制，使用户能够比以前更精确地定位虚拟相机镜头。

正如 TechCrunch 指出的那样，Veo 2 尚未完善视频生成过程，尽管它的幻觉似乎远低于Sora 、 Kling 、 Movie Gen或Gen 3 Alpha等竞争对手。 “连贯性和一致性是需要增长的领域，”柯林斯说。 “Veo 可以持续坚持几分钟的提示，但 [它不能] 长期坚持复杂的提示。同样，角色的一致性也是一个挑战。在生成复杂的细节、快速而复杂的动作以及继续突破现实主义的界限方面还有改进的空间。”

谷歌周一还宣布对Imagen 3进行改进，使商业图像生成模型能够创建“更明亮、构图更佳”的输出。该模型可在 ImageFX 上使用，还将根据用户提示中的关键字提供额外的描述性建议，每个关键字都会生成一个相关术语的下拉菜单。