这个人工智能可以在三秒钟后欺骗你的声音

人工智能 (AI)现在正处于风口浪尖，有消息称微软正在开发一种人工智能，可以在输入短短的三秒钟样本后模仿任何人的声音。

这个名为 VALL-E 的新工具已经接受了大约 60,000 小时的英语语音数据训练，微软称其“比现有系统大数百倍”。利用这些知识，它的创造者声称它只需要少量的声音输入就可以理解如何复制用户的声音。

更令人印象深刻的是，VALL-E 可以再现每个样本中的情绪、声调和声学环境，这是其他语音 AI 程序一直在努力解决的问题。这赋予了它更真实的氛围，并使其结果更接近于可以作为真正的人类语言传递的东西。

与其他文本转语音 (TTS) 竞争对手相比，微软表示 VALL-E“在语音自然度和说话人相似度方面明显优于最先进的零样本 TTS 系统。”换句话说，VALL-E 听起来更像真人，而不是遇到未经训练的音频输入的竞争对手人工智能。

在 GitHub 上，Microsoft 创建了一个小型示例库，其中包含使用 VALL-E 创建的示例。结果大多令人印象深刻，许多样本再现了说话者声音的轻快和重音。一些示例不太令人信服，表明 VALL-E 可能不是成品，但总体而言输出是令人信服的。

巨大的潜力和风险

在一篇介绍 VALL-E的论文中，微软解释说，VALL-E“可能会带来滥用模型的潜在风险，例如欺骗语音识别或冒充特定说话者。”这种用于生成听起来逼真的语音的强大工具引发了越来越有说服力的深度造假的幽灵，它可以用来模仿从前浪漫伴侣到著名国际人物的任何事物。

为了减轻这种威胁，微软表示“可以建立一个检测模型来区分音频剪辑是否由 VALL-E 合成。”该公司表示，在开发工作时还将使用自己的人工智能原则。这些原则涵盖公平、安全、隐私和问责制等领域。

VALL-E 只是微软人工智能试验的最新例子。最近，该公司一直致力于将 ChatGPT 集成到 Bing中，使用 AI重述您的 Teams 会议，并将高级工具移植到Outlook、Word 和 PowerPoint等应用程序中。根据 Semafor 的说法，微软正在寻求向ChatGPT 制造商 OpenAI 投资 100 亿美元，该公司已经投入了大量资金。

尽管存在明显的风险，但像 VALL-E 这样的工具在医学上可能特别有用，例如，可以帮助人们在事故发生后恢复声音。在这些情况下，能够用如此小的输入集复制语音可能是非常有前途的，前提是做得对。但是，由于微软和其他公司都在 AI 上花费了所有的钱，很明显它不会很快消失。