《ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURALSPEAKER EMBEDDINGS》

《ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURALSPEAKER EMBEDDINGS》_第1张图片

 文章调研了多说话人TTS的建模方法,并且探究了不同类型的speaker embedding对合成系统的影响。作者通过实验认为,相比之下,

  • LDE相对x-vector在zero-shot(unseen pseaker) TTS中的作用更优
  • 寻找了一种利用speaker embedding相对较优 方案
  • LDE不仅有利于相似度,而且有利于自然度。
  • unseen < seen
  • SV任务的表现似乎与TTS表现没有强烈的或者必然的联系

1. 背景:

对于多说话人或者说话人适应,目前学术界的做法有很多,作者归为一下几类:

  1.  fine-tune整个模型,但是需要较多高质量的数据,
  2.  使用speaker embedding, 这里需要一个speaker enecoder, 有的时候这个speaker encoder是和 TTS联合训练的,有的则是预训练的。对于前者,无法利用TTS任务之外的低质量数据;对于后者则对计算时间、计算资源、计算数据有要求。
  3. 针对上述问题,一种解决方法是迁移学习(transfer learning), speaker encoder 独立训练,且可以来气其他多个任务,比如声纹识别,语音识别等等。好处是可以使用很多合成无关的数据,并且获得的说话人相关特征比较鲁棒。这里得到的特征再用于合成系统的训练。但是unseen 效果仍有待提升。代表性的是LDE, x-vector。

基于此,本文的主要任务是探究上述提到的这些speaker embedding(基于SV的)在unseen speaker TTS中的作用到底有多大,对说话人特征的建模有多强。

下图是SV模型的三部分,encoder, pooling,classifier

《ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURALSPEAKER EMBEDDINGS》_第2张图片

 

2. 实验设计

研究speaker embedding的使用位置:

  • encoder output; concat
  • input prebet of decoder
  • input postnet

speaker embedding 有两类:

  • TDNN+SP as the x-vectors
  • ResNet34+LDE as the LDEs

总体而言,这两种embedding表现相当:

《ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURALSPEAKER EMBEDDINGS》_第3张图片

 实验结果分析

总体来说,seen(train) > unseen(dev)

《ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURALSPEAKER EMBEDDINGS》_第4张图片

 基于table最佳结果对应的模型,测试了15个不同speaker embedding的效果:

  • GT MOS : 3.83; GT DMOS: 3.25
  • 对于每一列,紫色是最好的,红色是次优的两种embedding。
  • 结果显示,
  • seen speaker与vocoder直接合成的相似度是很高的。
  • seen > unseen
  • LDE > x-vector, LDE同时提升了自然度和相似度。
  • We did not find any meaningful correlations between ASV and TTS scores.

《ZERO-SHOT MULTI-SPEAKER TEXT-TO-SPEECH WITH STATE-OF-THE-ART NEURALSPEAKER EMBEDDINGS》_第5张图片

 

你可能感兴趣的:(语音合成,tts)