Meta 推出了一种疯狂的人工智能模型,允许用户将他们输入的描述转化为视频。该系统称为Make-A-Video ,是网络上 AI 生成内容趋势中的最新成果。
该系统接受诸如“机器人在海中冲浪”或“小丑鱼游过珊瑚礁”之类的简短描述,并动态生成描述的简短 GIF。甚至有三种不同风格的视频可供选择:超现实主义、现实主义和风格化。

根据 Meta 首席执行官马克扎克伯格在Facebook 上的帖子,将书面文本翻译成视频要困难得多,因为视频需要移动:
“生成视频比生成照片要困难得多,因为除了正确生成每个像素之外,系统还必须预测它们将如何随时间变化。 Make-A-Video 通过添加一层无监督学习来解决这个问题,使系统能够理解物理世界中的运动并将其应用于传统的文本到图像生成。”

Meta 的 AI 研究团队撰写了一篇论文,描述了该系统的工作原理以及它与当前的文本到图像 (T2I) 方法有何不同。与其他机器语言模型不同,Meta 的文本到视频 (T2V) 方法不使用预定义的文本-视频对。例如,它不会将“男子行走”与实际男子行走的视频配对。
如果这听起来很像流行的 T2I 应用程序 DALL-E,那么您就不会太远了。自从 DALL-E 流行以来,已经推出了其他 T2I 应用程序。 TikTok 在 8 月份发布了一款名为 AI Greenscreen 的过滤器,它可以根据你输入的文字生成绘画风格的图像。

在过去的几年里,人工智能生成的内容变得非常受欢迎。 Deepfake 技术,即用另一个人的脸替换人脸的机器学习技术,甚至被视觉效果工作室用于像曼达洛人这样的大预算节目。
7 月,《泰晤士报》错误地报道了一名乌克兰妇女在俄乌战争中的情况。问题是她不是真的。
人工智能的威胁可能不是真正的威胁,但像 DALL-E 和 Make-A-Video 这样的项目是对一些有趣可能性的有趣探索。