【Whisper】《Robust Speech Recognition via Large-Scale Weak Supervision》译读笔记

《Robust Speech Recognition via Large-Scale Weak Supervision》

学习资料

  • 《OpenAI Whisper 精读【论文精读】by Mu Li - YouTube》

模型特点

  • Zero-shot:Whisper可以在没有针对特定任务的微调的情况下,对多种语言识别任务进行预测。这是因为它在训练时使用了一种多任务的格式,通过一些特殊的标记来指定不同的任务或分类目标。这样,Whisper模型就可以用一个统一的框架来处理多种语音处理任务,例如语言识别、时间戳标记、多语言音声转写、语音翻译等。Whisper模型在多个不同的数据集上展示了其零样本学习的能力,例如在CoVoST2数据集上进行音声翻译,或者在ESC-50数据集上进行环境声分类。

摘要

本文研究了,仅通过预测互联网上大量的音频转录,来训练语音处理系统的能力。当扩展到680,000小时的多语言和多任务监督时,所得到的模型能够很好地泛化到标准的基准测试上,并且在零样本迁移的设置下,无需任何微调,就能与之前 fully supervised 的结果相媲美。与人类相比,这些模型具有跟他们接近的准确性和鲁棒性。本文会发布模型和推理代码,作为进一步研究稳健语音处理的基础。

1. 引言

语音识别领域的进步得益于无监督预训练技术的发展,其中以 Wav2Vec 2.0(Baevski_2020_Wav2Vec2)为代表。由于这些方法直接从原始音频中学习且不需要人工标记,因此它们可以有效地使用未标记语音的大型数据集,并且已迅速扩展到 1,000,000 小时的训练数据(Zhang_2021_BigSSL),远远超过了学术界有监督数据集典型的1000小时左右的大小。当在标准基准数据上进行微调时,这种方法可以提高最先进的模型,特别是在low-data的情况下。
这些预训练的音频编码器学习了高质量的语音表示,但由于它们是纯无监督的,于是它们缺乏一种同样高性能的预训练解码器将语音表示映射到所需的输出,因此需要一个微调阶段才能实际执行诸如语音识别之类的任务。这不幸地限制了它们的实用性和影响力,因为微调仍然是一个复杂的过程,需要一个熟练的从业者。此外,进行微调还有一个风险;机器学习方法非常擅长在训练数据集中寻找模式,从而提高同一数据集中 held-out data(验证数据)的性能。然而,其中一些模式是脆弱且虚假的,无法泛化到其他数据集和分布。一个特别令人担忧的的例子是,Radford_2021 记录了一个计算机视觉模型在ImageNet数据集(Russakovsky_2015_ImageNet )上微调时,对象分类准确率提高了9.2%,但在其它七个自然图像数据集上对同一类目标进行分类时,没有观察到任何 average accuracy 的提高。在一个数据集上达到“超越人类”性能的模型,在另一个数据集上进行评估时仍然可能会犯许多基本错误,可能正是因为它正在利用人类忽视的那些 dataset-specific 的怪癖(Geirhos_2020_Shortcut_Learning_in_DNN)。

这表明,虽然无监督预训练极大地提高了音频编码器的质量;但缺乏同等高质量的预训练解码器,加上推荐的数据集特定的微调规范,使之成为一个关键的缺陷,限制了此类方法的实用性和鲁棒性。语音识别系统的目标应该是在广泛的环境下“out of the box(开箱即用)”可靠地工作,而无需针对每个部署场景的分布对解码器进行有监督微调。

正如Narayanan_2018_Domain_Invariant_Speech_Recognition,Likhomanenko_2020_Rethinking_ASR_Robust,Chan_2021_SpeechStew 等人所证明的,那些在多个数据集或数据域上进行监督预训练的语音识别系统,比在单一数据源上训练的模型具有更高的鲁棒性和泛化能力。这些工作是通过尽可能多地将现有高质量语音识别数据集组合在一起来实现这一能力。然而,其中易于获取数据的数量仍然有限。

你可能感兴趣的:(whisper,笔记,语音识别)