自 AI 生成器行业在 2022 年底爆发以来,Meta(前身为 Facebook)正在推出其首个人工智能产品。
该品牌的文本到音频生成器,称为 Voicebox,预计将相当于ChatGPT的语音功能,后者将文本提示处理为详细的书面结果,而Dall-E则开发逼真的艺术品。据Engadget称,Voicebox 将能够接受文本提示并制作音频剪辑。

对新生成器进行了超过“50,000 小时未过滤音频”的训练,包括英语、法语、西班牙语、德语、波兰语和葡萄牙语的公共领域演讲和文字记录。 Voicebox 已准备好以各种可用语言开发对话式语音的结果。 Meta 还声称,与其他模型相比,其模型的错误率降低了 1%。
根据 Meta 研究人员的说法,该模型是通过预测抄本中的语音块来训练的,而不必从头开始开发一系列工作。该工具还能够编辑音频剪辑中不需要的噪音或说错的话,其方式类似于Adobe Photoshop等静止图像编辑软件。
Meta 表示,由于“潜在的滥用风险”,目前不打算向公众发布 Voicebox 应用程序或源代码。这是可以理解的,因为最近联邦调查局 (FBI) 发出警告称,在犯罪活动中越来越多地使用深度造假内容,包括勒索、勒索和骚扰。
该公司在其介绍该应用程序的研究论文中发布了音频样本。它还详细说明了未来可能的计划,以帮助“声带受损的患者、游戏中的 NPC 和数字助理”。
Meta 处于一个有趣的位置,试图跟上当前的行业趋势。尽管其 Meta Quest VR 耳机有多种型号,但该公司似乎不再推进其开发其元宇宙概念以支持更多 AI 创新的计划。与此同时,Apple 最近推出了其首款Vision Pro 耳机,并正在投资虚拟现实。目前,Apple 还没有表现出对 AI 的任何重大兴趣。