语音识别与语音合成--百度PaddleSpeech

1.简介

本文根据2022年《PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit》翻译总结。百度开发的PaddleSpeech。不知道是否有中文版,我是根据这个英文版翻译总结的。

语音识别的以前一些工具集,如Kaldi、Fairseq S2T等都太复杂,比如Kaldi还得熟悉Perl、C++。由此,我们提出了PaddleSpeech,提供命令接口和便携式方法,方便语音相关开发应用。

此外,以前中文语音识别社区较少,PaddleSpeech既支持英文又支持中文。

PaddleSpeech不仅支持语音识别还支持语音合成。支持模型如下:
语音识别与语音合成--百度PaddleSpeech_第1张图片

开源地址:https://github.com/PaddlePaddle/PaddleSpeech

2.PaddleSpeech的设计

PaddleSpeech设计大体如下。其中模型都在method文件,对应的训练、验证在updater文件。底层基于百度的PaddlePaddle。
语音识别与语音合成--百度PaddleSpeech_第2张图片

3.实验

3.1.语音识别

语音识别任务效果如下,我们集成了Deepspeech 2、Conformer、Transformer模型:
语音识别与语音合成--百度PaddleSpeech_第3张图片

3.2.语音合成

Text-To-Speech (TTS)将语音文本转换成语音。PaddleSpeech的TTS包括3步,首先将原始的文本通过 text前端模块转换成字符或者音素,然后通过声学模型,将字符或者音素转换成声学特征,例如mel spectrogram,最后,我们通过声码器(Vocoder)利用声学特征生成声波。其中 text前端模块是一个规则模型,基于专家知识。声学模型和声码器是可以训练的。

text前端模块采用的G2P,如下表格所示
语音识别与语音合成--百度PaddleSpeech_第4张图片

声学模型主要分为自回归模型和非自回归模型。自回归模型的解码依赖上一步的预测,故而预测时间较长,但效果好;而非自回归模型可以并行输出,预测速度较快,但质量一般。

PaddleSpeech中,声学自回归模型有Tacotron 2 和Transformer TTS,非自回归模型有: SpeedySpeech, FastPitch 和FastSpeech 2。

你可能感兴趣的:(语音识别,人工智能,语音合成,语音识别,百度,人工智能)