当你有了 Meta Movie Gen 后谁还需要 Sora？

Meta 于周五发布了其第三波多模态视频人工智能 Movie Gen。它承诺“制作自定义视频和声音，编辑现有视频，并将您的个人图像转换为独特的视频”，同时优于 Runway 的Gen-3、快手科技的Kling 1.5或 OpenAI 的Sora等类似模型。

Meta Movie Gen 建立在该公司早期工作的基础上，首先是多模式Make-A-Scene模型，然后是 Llama 的图像基础模型。 Movie Gen 是所有这些模型的集合 – 具体来说，视频生成、个性化视频生成、精确视频编辑和音频生成 – 提高了创作者的细粒度控制。该公司在其公告中写道：“我们预计这些模型将催生各种能够加速创造力的新产品。”

对于视频生成，Movie Gen 依赖于 30B 参数模型，该模型可输出长达 16 秒的剪辑，但速度仅为每秒 16 帧 (fps)。梅塔说：“这些模型可以推理物体运动、主物交互和相机运动，并且它们可以学习各种概念的合理运动，这使它们成为同类中最先进的模型。 ”使用相同的模型，Movie Gen 可以根据静态图像为创作者创建个性化视频。

Meta 采用该视频生成模型的变体，该模型使用基于视频和文本的输入来精确编辑其生成的内容。它可以影响本地编辑（例如添加、删除或替换元素）和全局编辑（例如应用新的电影风格）。为了生成音频，Movie Gen 依赖于一个单独的 13B 参数模型，该模型可以创建长达 45 秒的音频（无论是环境背景噪音、音效还是乐器乐谱），同时自动将该内容同步到视频。

根据Meta 的白皮书，Movie Gen 在视频生成类别中与其他最先进的视频 AI（包括 Gen3、 Sora和 Kling 1.5）进行的 A/B 测试中始终获胜。它还在个性化视频生成方面领先于 ID-animator，在音频生成方面领先于 Pika Labs Sound Gen。在视频编辑功能方面，它还第二次击败了 Gen3。根据我们迄今为止看到的演示视频，Movie Gen 也远远超过了当前一批免费使用的视频生成器。

该公司表示，在继续开发这些模型时，计划“与电影制作人和创作者密切合作，整合他们的反馈”，但很快指出，它无意用人工智能取代人类创作者。该公司写道：“我们分享这项研究是因为我们相信这项技术的力量可以帮助人们以新的方式表达自己，并为那些原本可能没有机会的人提供机会。” “我们希望也许在未来的某一天，每个人都有机会将自己的艺术愿景变为现实，并使用 Movie Gen 创作高清视频和音频。”