随着聊天机器人和文本到图像生成器席卷互联网,人工智能的下一个前沿可能是文本到视频生成器。
Nvidia 最近在其多伦多 AI 实验室的实验中发表了一篇名为“具有潜在扩散模型的高分辨率视频合成”的研究论文,详细介绍了它如何使用 Stable Diffusion 创建一种工具,该工具可以从文本提示中产生移动艺术效果。
TechRadar指出,这家科技公司展示了潜在扩散模型 (LDM) 的演示,该模型使用文本生成视频剪辑而无需大量计算机处理。
该工具能够以 1,280 x 2,048 分辨率生成 GIF 风格的移动图像,这些图像是大约 4.7 秒长的视频。根据研究论文,它还能够以 512 x 1024 的较低分辨率创建更长的视频。
在观看了该技术的演示后,TechRadar 表示该工具目前可能是理想的文本转 GIF 生成器。该出版物指出,它可以轻松处理简单的提示,例如冲锋队在海滩上吸尘或泰迪熊正在弹奏电吉他,高清,4K 。即便如此,结果仍然会在 GIF 中产生随机伪像和污迹,这在其他常用的 AI 工具(例如Midjourney)中很常见。
该出版物认为,较长的视频在进入黄金时段之前仍需要更多的开发,但认为 Nvidia 将迅速开展工作以准备好技术。它们可能适用于库存库和类似用途。
还有其他公司正在试验 AI 文本到视频生成器。谷歌演示了其 Phenaki 生成器,该生成器允许生成 20 秒剪辑的更长提示。另一家名为 Runway 的初创公司上个月宣布了其第二代视频模型,该模型也基于 Stable Diffusion。它演示了傍晚的阳光透过纽约阁楼的窗户窥视的提示,展示了如何为静止图像添加轻微的移动效果。
据 TechRadar 称,用户还可以从 Adobe Firefly 和 Adobe Premiere Rush 等其他程序中添加 AI 中受益。
其他一些公司,如Narakeet 和 Lume5 ,将自己推销为拥有文本到视频生成器。然而,许多这些工具的工作方式更像是 PowerPoint 演示文稿,将文本、音频、图像以及一些已经制作好的带有提示的视频剪辑放在一起,而不是生成一个独特的作品。