OpenAI 只需 15 秒的音频即可让其 AI 克隆语音

近年来,人工智能克隆某人声音所需的聆听时间越来越短

以前是几分钟,现在只是几秒钟。

OpenAI 是微软支持的病毒式生成人工智能聊天机器人 ChatGPT 背后的公司,最近透露,其自己的语音克隆技术只需 15 秒的音频材料即可复制某人的声音。

OpenAI 在其网站上的一篇文章中分享了一个名为“语音引擎”的模型的小规模预览,该模型自 2022 年底以来一直在开发。

语音引擎的工作原理是向其提供至少 15 秒的语音材料。然后,用户可以输入文本来创建 OpenAI 所描述的“情感丰富且真实”的语音,“与原始讲话者非常相似”。

OpenAI 坚称,“由于合成语音滥用的可能性,它正在采取谨慎和知情的方式进行更广泛的发布”,并补充说,它希望“就合成语音的负责任部署以及社会如何适应这些新的问题展开对话”。能力”。

它补充说:“根据这些对话和这些小规模测试的结果,我们将就是否以及如何大规模部署这项技术做出更明智的决定。”

OpenAI 提到的滥用行为之一是一些犯罪分子已经使用已经公开一段时间的类似技术实施的骗局。它涉及克隆一个声音,然后打电话给该人的朋友或亲戚,诱骗他们通过银行转账交出现金。人们还担心如何在即将到来的总统选举中使用此类技术,最近发生的一起备受瞩目的事件凸显了这个问题,在该事件中,使用克隆总统乔·拜登声音的机器人电话告诉人们不要在一月份的新罕布什尔州初选中投票

另一个担忧是,快速进步的技术将如何影响配音演员的生计,他们担心自己会越来越多地被要求签署自己的声音权利,以便人工智能可以用来创建合成版本,并获得此类合同的补偿可能比要求演员亲自执行这项工作要低得多。

着眼于该技术的更积极部署,OpenAI 表示,它可以用于使用听起来自然、富有感情的声音为非读者和儿童提供阅读帮助,“代表比预设声音更广泛的说话者”。 Spotify 已经在尝试视频和播客的即时翻译。

它还可以用来帮助因疾病而逐渐失声的患者继续使用听起来像自己的声音进行交流。

OpenAI 在其网站上提供了一些人工智能生成的音频和参考音频的示例,我们相信您会同意,它们非常出色。


Posted

in

by

Tags: