Building a mixed-lingual neural TTS system with only monolingual data





1 简介




        (2)共享HMM state,其状态映射同样是通过双语语料训练而得到。






        (2)speaker embedding对混合语句一致性的影响。

        (3)phene embedding对合成语音的影响。


2 多语种TTS模型

2.1 多人平均模型

    直接用单语种语料训练一个多语种合成模型是很困难的,所以本文用中文和英文混合语料训练了一个基础模型。在后面使用这种混合语料时,用字典法标出了speak embedding,但在分析phoneme embedding中,没有使用speaker embedding。   

2.2 speaker Embedding

    本文采用查表法使用speaker embedding(类似查数据库,一人有一条对应的embedding表示),speakerbedding与Encoder-Decoder网络联合进行训练(估计是类似expressive tacotron里面那样做)。由于speaker embedding所放的位置会影响最终合成语音的一致性(中英混读是是否像一个人的读音),本文采取两种策略进行对比实验,一种是放在Encoder的输出端,网络称为:SE-ENC,另外一种放在Decoder的输入端,网络称为:SE-DEC(其实类似做法百度和谷歌的相关项目都做过)。后面实验表明SE-DEC效果更好。

2.3 Phoneme Embedding

利用单语种数据合成多语种语音--Building a mixed-lingual neural TTS system with only monolingual data_第1张图片
图1 phoneme embedding聚类结果
利用单语种数据合成多语种语音--Building a mixed-lingual neural TTS system with only monolingual data_第2张图片
图2 经过Encoder网络后的phoneme embedding

    本文还研究了phoneme embedding对于最终合成语音自然度的影响。图1显示了原始的phoneme embedding结果,其中小写的是中文音素,大写的是英文音素。原始的中英文音素分布比较散乱,没有明显的区分度。图2显示了经过Encoder网络后的phoneme embedding聚类结果,显示出明显的区分度。作者猜测这可能是由于Encoder网络的输出受Decoder网络中的语音反馈影响以及对齐错误导致。

2.4 Phoneme-informed attention

    根据2.3的分析,本文对研究了两种方式的phoneme embedding对注意力的影响。一种是给phoneme embedding加权重,使用了类似注意力机制的方法。  其部分基础公式如下,具体看论文:

利用单语种数据合成多语种语音--Building a mixed-lingual neural TTS system with only monolingual data_第3张图片
公式1 权重计算相关公式

    另外一种就是做一个ResNet,将phoneme attention embedding加到encoder output中(实验证明resnet效果更好)。如下图:

利用单语种数据合成多语种语音--Building a mixed-lingual neural TTS system with only monolingual data_第4张图片
图3 phoneme embedding resnet
利用单语种数据合成多语种语音--Building a mixed-lingual neural TTS system with only monolingual data_第5张图片
图4 整体网络架构

3 实验及分析




3.2 实验分析


3.2.1 SE-ENC与SE-DEC比较   

利用单语种数据合成多语种语音--Building a mixed-lingual neural TTS system with only monolingual data_第6张图片
图5 SE-ENC和SE-DEC偏好评估

3.2.2 SE-DEC 与 Re-Train AVM


利用单语种数据合成多语种语音--Building a mixed-lingual neural TTS system with only monolingual data_第7张图片
图6 SE-DEC 与Retrain-AVM

3.2.3 训练数据的选择


利用单语种数据合成多语种语音--Building a mixed-lingual neural TTS system with only monolingual data_第8张图片
图7 中文数据集VS英文数据集
利用单语种数据合成多语种语音--Building a mixed-lingual neural TTS system with only monolingual data_第9张图片
图8 中文数据集VS混合数据集
利用单语种数据合成多语种语音--Building a mixed-lingual neural TTS system with only monolingual data_第10张图片
图9 混合数据集VS英文数据集

3.2.4 phoneme embedding的使用

    phoneme embedding一种为加权法,网络为:SE-DEC-PECV,另外一种为残差法,名称为:SE-DEC-RES。

利用单语种数据合成多语种语音--Building a mixed-lingual neural TTS system with only monolingual data_第11张图片


利用单语种数据合成多语种语音--Building a mixed-lingual neural TTS system with only monolingual data_第12张图片

4 总结



        (2)speaker embedding对语音一致性比较重要,同时speaker embedding的输入位置对结果也有影响,放在Decoder输入端效果优于放在Encoder输出端。


        (4)phoneme attention信息对合成语音的一致性及自然度都有好处。


5 参考文献

