语音合成论文优选:Diverse and Controllable TTS with GMM-Based PLP Mod

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进


Diverse and Controllable Speech Synthesis with GMM-Based Phone-Level Prosody Modelling

本文是上海交大2021.05.27更新的文章,该文章主要使用GMM来进行phone-level的韵律建模,从而提高语音的自然度​。该文章主要在单人,多人和prosody clone三个方面进行设计和实验,具体的文章链接

https://arxiv.org/pdf/2105.13086.pdf


(这篇文章相关的文章在2月写过一次,可能2月份的是会议版本,现在这篇长文是期刊版本,2月份版本参考https://mp.weixin.qq.com/s?__biz=MzAxNjY3NjQwOQ==&mid=2247484939&idx=1&sn=7a2d8f5f54400a444e42bdf00294569f&chksm=9bf0655dac87ec4b1852a998aeb3885fb21d25a49c65671141ce882942a1dd007919b28d273e&token=1817714809&lang=zh_CN#rd)

1 背景

为了使语音合成系统合成更加自然的语音,很多人研究韵律模型。韵律模型主要分为:global prosody 和fine-grained prosody。其中global prosody是把参考的句子转成一个embedding,这也是目前很多系统采用的方案。fine-grained prosody主要是音素级别(PL:phone level)的韵律建模,常使用单高斯来建模。本文提到使用单高斯来建模不能很好表达音素级别之间的信息,因此使用GMM来对PL进行建模。本文在单发音人和多发音人以及prosody-clone上进行设计和实验,结果表明本文的方案​效果较优。

2 详细设计

首先,先区分两个概念prosody cloning和prosody transfer。prosody cloning是参考的音频内容和输入的text一样,而prosody transfer不需要​,本文主要设计prosody cloning,其训练和推理阶段如图1所示​。

 

 

语音合成论文优选:Diverse and Controllable TTS with GMM-Based PLP Mod_第1张图片

接下来我们先看一下单发音人系统设计如图2所示,其使用MDN网络来预测GMM分布。图中prosody extractor是从音素对应的mel-spec来抽取prosody embedding,主要在训练阶段使用。在推理阶段则使用prosody prediector来预测GMM,并获取prosody embedding。接着图3为多发音人系统,其中添加speaker embedding table来表征speaker id​,其与图2不同之处是把speaker信息拼接到系统,而且prosody predictor也接受发音人​相关信息。图4是prosody cloning的过程,其流程为先训练好图3模型,然后使用参考的语音来计算gaussian index seq。合成目标语音时候,使用gaussian index seq来进行高斯选取采样​。

语音合成论文优选:Diverse and Controllable TTS with GMM-Based PLP Mod_第2张图片

3 实验

table 1对比句子级别和音素级别的效果,在客观指标MCD显示,​PLP音素级别较好。图5显示GMM的高斯数量大小对似然值影响,从10到20几乎变化很小,本文选取20作为​余下实验。图6显示PLP-GMM(使用GMM音素级别建模)比PLP-SG(单高斯音素级别韵律建模)和ULP(句子级别建模)在ABtest上远远好于​后两者。图7为自然度的测试,其结果PLP-GMM比PLP-SG和ULP好。图8测试韵律embedding有效​性​。图9,图10和图11是prosody cloning实验,​本文最好。
 

语音合成论文优选:Diverse and Controllable TTS with GMM-Based PLP Mod_第3张图片

语音合成论文优选:Diverse and Controllable TTS with GMM-Based PLP Mod_第4张图片

语音合成论文优选:Diverse and Controllable TTS with GMM-Based PLP Mod_第5张图片

 

语音合成论文优选:Diverse and Controllable TTS with GMM-Based PLP Mod_第6张图片

 

语音合成论文优选:Diverse and Controllable TTS with GMM-Based PLP Mod_第7张图片

 

语音合成论文优选:Diverse and Controllable TTS with GMM-Based PLP Mod_第8张图片

 

语音合成论文优选:Diverse and Controllable TTS with GMM-Based PLP Mod_第9张图片

4 总结

该文章主要使用GMM来进行phone-level的韵律建模,从而提高语音的自然度。该文章主要在单人,多人和prosody clone三个方面进行设计和实验,结果​优于现有方案。​

 

 

你可能感兴趣的:(语音合成论文)