这个人工智能只用了三分钟的音频就克隆了我的声音

您可能还记得《碟中谍 3》中的一个场景。在其中，我们的英雄。伊桑亨特（汤姆克鲁斯）。对付电影中的反派，用枪指着他，并强迫他大声朗读一系列离奇的句子。

“巴斯比陪伴的乐趣是我最享受的，”他不情愿地写道。 “他在扬西小姐的椅子上钉了一个钉子，她说他是个可怕的男孩。月底的时候，他把两只小猫扔到房间的另一边…… ”

尽管听起来随意且不重要，但很快就会清楚他正在阅读的单词根本不是随机的——它们是故意设计来帮助软件程序克隆他的声音。一旦他读完这段话，软件就会解析音频，并立即让亨特能够像坏人一样说话和听起来——这是他近乎完美的伪装的最后一部分。

碟中谍 3 (2006) – 双重场景 (5/8) |电影片段

现在，如果你把那个场景减去所有的间谍活动、枪支和戏剧性的紧张气氛，你就会得到一个非常可靠的例子，说明我今天在 CES 上演示My Own Voice时所经历的，这是一种人工智能驱动的“语音银行”来自一家名为 Acapela Group 的法国初创公司的服务。

公司的存在理由是帮助那些最终将失去说话能力的人。这通常是由于受伤、疾病或 ALS、亨廷顿舞蹈病和喉癌等疾病而发生的事情。无论原因是什么，该公司的 My Own Voice 平台允许一个人合成克隆他们的声音并保留使其成为他们自己的独特音调、音色和个性——大多数文本转语音软件通常会丢失这些东西（想想 Stephen霍金）。

现在公平地说，语音克隆技术在这一点上不一定是新技术或技术上的突破。此类服务已经存在多年，部分归功于deepfakes的出现，目前还有数十家其他公司可以做与 Acapela Group 相同的事情。但有两点让 My Own Voice 与众不同：速度和目的。

我自己的声音非常快。与通常需要数小时的参考音频来创建逼真的克隆的其他服务不同，My Own Voice 的 AI 可以在仅听到 50 个短句或大约 3 分钟左右的录制音频后旋转出惊人的好合成。基本上就像不可能的任务场景一样；他们开发了一套精简的参考句子，让他们的 AI 更容易学习你的发音，所以你不需要手动记录每个可能的单词，你所要做的就是通过一些简单的短语来交谈。

不过，可以说比软件的速度更重要的是它的用途。同样，这项技术并不是特别新颖或新颖。已经有一些值得注意的初创公司开发了类似的语音克隆技术——例如加拿大初创公司 Lyrebird 或总部位于伦敦的公司 Sonantic。但这两家初创公司都很快被收购，他们的语音克隆技术最终被用于电影和视频编辑软件中的AI配音。

这并不是说这些不是语音克隆技术的好用途。它们绝对是，而且它们可能是非常有利可图的启动 – 但这正是让我自己的声音如此酷的原因。您很少会遇到如此强大的技术，它不是为娱乐或生产力而构建的，而是专门为帮助弱势群体而开发的，并且确实让他们有发言权。

Posted

5 1 月, 2023

blog

技術新聞普遍器

Tags: