谷歌的新人工智能从像素生成音频配乐

Deep Mind周二展示了其生成式人工智能视频转音频研究的最新结果。这是一个新颖的系统，它将屏幕上看到的内容与用户的书面提示相结合，为给定的视频剪辑创建同步的音频音景。

Deep Mind 的生成音频团队在博客文章中写道，V2A AI 可以与 Veo 等视频生成模型配对，并可以为屏幕动作创建配乐、音效，甚至对话。更重要的是，Deep Mind 声称其新系统可以通过分别鼓励或阻止使用特定声音的积极和消极提示来调整模型，从而“为任何视频输入生成无限数量的音轨”。

V2A汽车

该系统的工作原理是首先对视频输入进行编码和压缩，然后扩散模型利用视频输入，根据用户可选的文本提示和视觉输入，迭代地从背景噪声中细化所需的音频效果。该音频输出最终被解码并导出为波形，然后可以与视频输入重新组合。

最好的部分是，用户不必手动（阅读：乏味地）同步音频和视频轨道，因为 V2A 系统会自动执行此操作。 Deep Mind 团队写道：“通过对视频、音频和附加注释进行训练，我们的技术学会将特定的音频事件与各种视觉场景相关联，同时响应注释或文字记录中提供的信息。”

然而，该系统尚未完善。其一，输出音频质量取决于视频输入的保真度，当输入中存在视频伪影或其他失真时，系统就会出现故障。根据 Deep Mind 团队的说法，将对话同步到音轨仍然是一个持续的挑战。

“V2A 试图从输入的转录本中生成语音，并将其与角色的嘴唇动作同步，”该团队解释道。 “但是配对视频生成模型可能不以转录本为条件。这会造成不匹配，通常会导致不可思议的口型同步，因为视频模型不会生成与文字记录相匹配的嘴部动作。”

在团队考虑向公众发布之前，该系统仍需要经过“严格的安全评估和测试”。该系统生成的每个视频和配乐都将贴上Deep Mind的SynthID水印。该系统远非目前市场上唯一的音频生成人工智能系统。 Stability AI 上周发布了类似的产品，而ElevenLabs 上个月发布了他们的音效工具。