Google公开了Lyra低比特率语音编解码器

Google已在GitHub上发布了Lyra音频编解码器beta源代码,使所有开发人员都可以使用令人难以置信的高质量低比特率音频处理。编解码器在需要保存尽可能多数据的嵌入式和带宽受限的情况下最有用。

天琴座:几乎什么都没听起来那么好

音频编解码器的工作原理是,以尽可能低的数据速率提供听起来最自然的语音。它成功地以低至3 kbps的比特率成功创建了几乎令人毛骨悚然的音频再现水平。 Google已在其Duo应用程序中使用了实时Lyra压缩,尽管您甚至没有意识到与常规带宽音频之间的差异也没有受到指责。

为了证明Lyra比其他编解码器更好,Google通过博客文章提供了一些示例,将机器学习驱动的压缩编解码器与其他3和6 kbps替代方案进行了比较。

这一天晚上是有区别的,为开发人员提供遍及这些工具的世界将是在带宽不足的情况下提高通信质量的重要推动力。对于希望在新兴市场中创建新应用的开发人员来说,这也是一个极好的动力,Google一定会在今年的免费虚拟Google I / O在线会议中介绍这一点

尽管示例也将在64位x86 Linux系统上运行,但目前beta版本的源代码在设计时就考虑到了64位Arm设备。源代码已提供完整文档,尽管它处于beta版本,并且GitHub页面提供了安装说明以及如何在Linux上为Arm 64位目标构建Lyra。

要获取Lyra beta源代码,请访问Lyra GitHub页面

天琴座是如何工作的?

虽然Lyra实际使用的过程是将数千小时的语音数据进行训练的机器学习模型与现有音频编解码器技术的优化极其复杂的组合,但理论却非常简单。

每隔40ms,语音中的特征就会被提取并压缩到3kbps。这些功能代表了最接近人类听觉语音响应的整个频谱上的语音能量点-当有人讲话时我们需要识别和理解的事物。

使Lyra与众不同的关键部分是如何使用此信息:

但是,传统的参数编解码器仅从语音关键参数中提取出来,然后可用于在接收端重新创建信号,但比特率却很低,但听起来通常是机器人化且不自然的。这些缺点导致了新一代高质量音频生成模型的开发,该模型不仅能够区分信号,而且还能生成全新的信号,从而彻底改变了该领域。

传输后,Lyra通过使用此过程填充丢失的内容来重建波形,而在某种程度上不会太复杂。

一方面,这是一种技术奇迹,几乎可以在任何地方运行。另一方面,我仍然不是100%确信这不是巫术。