文 / 软件工程师 Alejandro Luebs 和 Chrome 产品经理 Jamieson Brettle
通过语音和视频通话与他人在线联系逐渐成为日常生活的一部分,这得益于 WebRTC 等实时通信框架,而后者依靠高效的压缩技术和编解码器,解码或编码传输和存储的信号。数十年来,编解码器一直是媒体应用的重要组成部分,可使需要占用大量带宽的应用高效传输数据,支持用户随时随地进行高质量通信。
因此,在开发视频和音频编解码器时,一项长期目标就是提高信号质量,减少数据使用,以及最大程度降低实时通信延迟。虽然与音频相比,视频貌似会占用更多带宽,但现代视频编解码器能够实现比较低的比特率,甚至可能低于目前某些高质量语音编解码器所能达到的值。将低比特率视频和语音编解码器相结合,即使在低带宽网络中也能实现高质量的视频通话体验。但是根据过往经验,音频编解码器的比特率越低,语音信号的清晰度就越差,声音也越像机器人。此外,尽管部分人可以访问稳定的高质量、高速网络,但这种网络连接水平并不普遍,即便在网络良好的地区,有时也会遇到质量差、带宽低和网络拥堵的情况。
为解决这一问题,我们构建了 Lyra。这是一款比特率极低的高质量语音编解码器,即使在最慢的网络上也可以实现语音通信。为此,我们采用传统编解码器技术,同时利用机器学习 (ML) 的优势,使用基于数千小时数据进行训练的模型,创造出一种全新的语音信号压缩与传输方法。
Lyra
https://arxiv.org/abs/2102.09660
Lyra 编解码器的基础架构非常简单。每隔 40 毫秒,该编解码器都会从语音中提取特征或独特的语音属性,将其压缩后传输。这些特征本身为对数梅尔声谱图,是一系列代表不同频段语音能量的数字,因其根据人类的听觉反应建模,具有感知相关性,所以一直以来得以应用于相关领域。在另一端,生成模型使用这些特征重建语音信号。就这一点来说,Lyra 与其他传统参数编解码器非常相似,如 MELP。
但是,传统参数编解码器只是简单地从语音中提取关键参数,然后在接收端用参数重建信号,虽然可以实现低比特率,但声音往往听起来像机器人一样,并不自然。这些缺点促使相关人员开发新一代高质量音频生成模型,这些模型不仅能够区分信号,还可以生成全新的信号,为这一领域带来了巨大变革。DeepMind WaveNet 为首个生成模型,为之后的模型铺平了道路。此外,WaveNetEQ,即目前 Duo 中使用的基于生成模型的丢包隐藏系统,就是将此技术用于真实场景的成果。
WaveNet
https://deepmind.com/blog/article/wavenet-generative-model-raw-audio
以这些模型为基准,我们开发了一个全新的模型,能够使用少量数据重建语音。Lyra 利用这些强大的新型自然语音生成模型,确保将参数编解码器的比特率维持在较低水平,同时实现较高质量,达到与当今大多数直播和通信平台所用顶尖波形编解码器相当的表现。波形编解码器的缺点在于,要达到这种高质量水平,必需逐一压缩和发送信号样本,这需要更高的比特率,并且在大多数情况下,并不是实现自然语音的必要条件。
生成模型的一个问题在于其计算复杂度。Lyra 使用成本更低的递归生成模型,即 WaveRNN 变体,从而避免了这一问题。该模型以较低的比特率运行,但可并行生成频率范围不同的多个信号,然后以所需采样率将其组合为单个输出信号。得益于这一设计,Lyra 不仅可以在云服务器上运行,还可以在中档手机设备上实时运行(处理延迟为 90 毫秒,与其他传统语音编解码器相当)。与 WaveNet 类似,此生成模型基于数千小时的语音数据训练,可准确重建输入的音频。
WaveRNN
https://arxiv.org/abs/1802.08435
自 Lyra 问世以来,我们一直致力于以远低于现有编解码器的比特率实现最高的音频质量。目前,免版税的开源编解码器 Opus 是 WebRTC 型 VOIP 应用中使用最广泛的编解码器,在音频为 32 Kbps 时,通常可以实现与原始语音几无差别的语音质量。然而,尽管 Opus 可以在带宽受限的环境中运行,且比特率最低可达 6 Kbps,但声音质量会明显下降。Speex、MELP、AMR 等其他编解码器虽然也能够实现与 Lyra 相当的比特率,但声音皆会失真,听起来像机器人一样。
根据目前的设计,Lyra 会以 3 Kbps 的比特率运行。听音测试表明,Lyra 在该比特率下的性能优于其他所有编解码器,并且与 Opus 在 8 Kbps 比特率下的表现相当,因此可节省 60% 以上的带宽。在带宽条件不足以满足较高比特率,且现有低比特率编解码器无法实现所需质量时,可以使用 Lyra。
相关对比见
https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html
与所有基于 ML 的系统一样,必须对模型进行训练,确保其满足所有人的需求。我们利用开源音频库对 Lyra 进行训练,音频数据长达数千个小时,涵盖 70 余种语言,然后与专家和众包听众一同验证音频质量。
我们设计 Lyra 的一个目标在于确保人人都能获得高质量的音频体验。用于训练 Lyra 的数据集范围广泛,涵盖多种语言,可确保编解码器能够稳健应对可能遇到的任何情况。
无论从短期还是长期来看,Lyra 等技术都具有重要而广泛的影响。有了 Lyra,数十亿新兴市场的用户就能使用高效的低比特率编解码器,获得远高于以往的音频质量。此外,Lyra 也可用于云环境,帮助使用不同网络和设备的用户顺畅地聊天。将 Lyra 与 AV1 等全新视频压缩技术相结合,可为较差网络环境中的视频聊天提供支持。用户即使通过调制解调器拨号上网,网速只有 56 Kbps,也可以进行视频聊天。
Duo 已使用 ML 来减少音频中断,目前正推出 Lyra,以求在连接带宽极低时,提高语音通话的质量和可靠性。我们将继续优化 Lyra 的性能和质量,以尽可能地提高技术的可用性,同时还会开展 GPU 加速和 TPU 加速的相关研究。我们还将着手研究如何基于这些技术开发比特率较低的通用音频编解码器,即音乐和其他非语音用例。
Duo
https://duo.google.com/about/
感谢所有在 Lyra 构建过程中做出贡献的人,包括 Jan Skoglund、Felicia Lim、Michael Chinen、Bastiaan Kleijn、Tom Denton、Andrew Storus、Yero Yeh (Chrome Media)、Henrik Lundin、Niklas Blum、Karl Wiberg (Google Duo)、Chenjie Gu、Zach Gleicher、Norman Casagrande 和 Erich Elsen (DeepMind)。
想了解关于 Lyra 的更多介绍和使用方法,请点击下方链接,访问 TensorFlow 中国官网。
https://tensorflow.google.cn/