语音技术语言覆盖范围的扩展

摘要

扩大语音技术的语言覆盖范围有可能改善更多人对信息的访问。然而,目前的语音技术仅限于大约 100 种语言,这只是全球 7,000 多种语言中的一小部分。Massively Multilingual Speech (MMS) 项目将支持的语言数量增加了 10-40 倍,具体取决于任务。主要成分是一个新的数据集,该数据集基于对公开宗教文本的阅读,并有效地利用了自我监督学习。我们构建了涵盖 1,406 种语言的预训练 wav2vec 2.0 模型,包括:

  • 1,107 种语言的单一多语言自动语音识别模型
  • 相同数量语言的语音合成模型 (tts)
  • 4,017 种语言的语言识别模型

实验表明,我们的多语言语音识别模型在 FLEURS 基准测试的 54 种语言上将 Whisper 的单词错误率降低了一半以上,同时在一小部分标记数据上进行了训练。MMS 模型可在 https://github.com/pytorch/fairseq/tree/master/examples/mms 获得。

数据构造

我们的工作利用两个新的数据集来扩展语音技术的语言覆盖范围。在第一节中,我们详细介绍了我们如何创建一个带标签的数据集,其中包括与 1,107 种语言的相应文本配对的语音音频 (MMS-lab; 44.7K 小时)。其次,我们讨论了一个无标签数据集的创建,我们只有录音而没有相应的文本。该数据集涵盖 3,809 种语言 (MMS-unlab; 总时长 7.7K)。我们还使用未标记版本的 MMS-lab 进行预训练和语言识别。这跨越了更多的语言,因为我们还可以使用来自我们数据源的未标记音频 (MMS-lab-U; 1,362 种语言; 55,000 小时)。

涵盖 1,107 种语言的配对数据 (MMS-lab)

我们通过使用以下步骤对齐从在线资源 (§3.1.1) 获得的新约文本来获得 1,107 种语言的语音数据和转录文本:

  1. 下载并预处理语音音频和文本数据 (§3.1.2)。
  2. 应用可扩展的对齐算法,该算法可以强制将非常长的音频文件与文本对齐,并对 1000 多种语言的数据执行此操作 (§3.1.3)。
  3. 初始数据对齐:我们使用现有的多语言语音数据集训练初始对齐模型,涵盖 127 种语言的 8K 小时数据,并使用该模型对齐所有语言的数据 (§3.1.4)。
  4. 改进的数据对齐:我们在原始对齐模型具有高置信度的新对齐数据上训练第二个对齐模型,并再次生成对齐。新对齐模型支持 1,130 种语言和 31,000 小时的数据,包括步骤 3 (§3.1.5) 中使用的数据。
  5. 最终数据过滤:我们根据交叉验证程序过滤每种语言的低质量样本。对于每种语言,我们在一半对齐的数据上训练单语 ASR 模型以转录另一半数据。我们仅保留转录质量可接受的样本 (§3.1.6)。
  6. 我们将数据划分为训练、开发和测试部分 (§3.1.7)。

覆盖 3,809 种语言的未配对数据 (MMS-unlab)

该数据集的数据源是 Global Recordings Network,它提供超过 6,255 种语言和方言的圣经故事、福音信息、经文朗读和歌曲的录音。音频文件没有相应的文本转录,但来源清楚地表明说的是哪种语言。我们将数据按语言对分组,将同一种语言的方言组合在一起,得到总共 3,860 种语言和 9,345 小时的音频。

我们将音频文件转换为单通道和 16kHz 的采样率。接下来,我们使用 inaSpeechSegmenter,一种基于 CNN 的音频分割模型,来识别音频中的语音、音乐、噪声和静音段。如果两个语音片段被包含音乐或噪音的中间片段分开,那么如果中间片段不超过所有片段的 20%,我们会考虑加入这些片段。这是为了构建持续时间更长但仍主要包含语音的样本。剩余的非语音段被丢弃。接下来,我们将语音片段随机分成 5.5 到 30 秒之间。

你可能感兴趣的:(人工智能,TTS)