语音处理 之 开源数据集AiShell 3,个性化合成

开源数据集AiShell 3,该文章由北京希尔贝壳公司于2020.10.22更新,主要开源了多说话人数据,用于训练multispeaker TTS,为TTS的研究做贡献,语音合成的训练数据十分昂贵,尤其训练多人的TTS模型,需要大量的多人训练数据,这给很多个人或者研究机构造成很大阻碍。基于开源精神,北京希尔贝壳开源了218说话人85小时的高质量训练数据,给中文TTS研究提供很大的帮助,在此鼓掌。

数据包含218人数据,数据为44.1khz,16bit。该数据集覆盖了性别,年龄,地域,多领域语料等多项因素

语音处理 之 开源数据集AiShell 3,个性化合成_第1张图片

另外为了验证数据,本文提供了基于tacotron的多人TTS架构,客观的评测SV-EER和Cosine distance也跟vctk结果一致,可以用来今后TTS架构评测标准。高质量的中文语音合成开源数据集相当稀少,本文无私的提供了这样一个多人数据集,为语音合成的研究发展添砖添瓦。

我们将采用FastSpeech2作为特征生成器,并采用Multi-band MelGAN作为声码器来搭建端到端语音合成系统。基于Speaker Embedding,实现个性化合成。目标人只要少量语音,无需重新训练模型,即可抽取对应的Embedding,实现个性化合成。

FastSpeech2是特征生成器,说明白就是语音合成器。FastSpeech以非自回归的方式生成语音特征,极大提升合成速度,提升语音鲁棒性(减少重复吐词、漏词等问题)与可控性(控制速率和韵律),同时达到相匹配的语音合成质量。但FastSpeech 依赖 Teacher-Student 的知识蒸馏框架。

声码器与MelGAN

声码器在发送端对语音信号进行分析,提取出语音信号的特征参量加以编码和加密,以取得和信道的匹配,经信息通道传递到接受端,再根据收到的特征参量恢复原始语音波形。

很明显MelGAN是生成的,那么看来用Fastseech做前半端,用MelGAN用后半端。

实在有些困难,以后再说吧。

你可能感兴趣的:(自然语言处理,语音识别,人工智能)