Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis

原文链接:https://arxiv.org/abs/1808.10128
作者:Yu-An Chung, Yuxuan Wang

abstract

想要解决合成中数据昂贵的问题,希望用网上公开的数据和少量合成数据(不足半小时),训练tacotron。
(1)将input text中的word转成word vector训练tacotron-encoder;
(2)unpaired speech corpus训练tacotron-decoder;
(3)用paired data继续fine-tune模型

introduction

  • 用的base line model和style-token提到的Tacotron结构一样,其中包括GMM attention, LSTM-based decoder with zoneout regularization。
  • GL vocoder,本实验的目的在与探究数据量,而不是更高质量的合成语音

正常是用paired text-audio同时训练encoder和decoder,本文插入额外的文本和声学知识分别引导encoder-decoder。
encoder提取鲁棒的文本序列表示,但是在文本很少的情况下提取到的特征不丰富。利用文本数据集训练real-valued word vectors,或者语言模型,建模语法或者语义语境。这些word vector可以用作TTS模型额外的的输入,传递原始文本数据之外学到的文本知识。
Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis_第1张图片

word vector和encoder embedding拼接的两种思路:(1)在encoder输入端拼接;
(2)和encoder最后一层的输出拼接-conditioning location feature,比如thank you是常见的组合,希望能够学到这种知识,但是(1)的硬拼接并不能获取到这些信息,在(2)中加入一个简单的attention,conditioning location feature作为attention 的query输入,和word vector所有计算加权和,生成对应的context vector。

tacotron中的decoder学习声学表示+和encoder文本特征的对齐。
本文用一个单独的speech data corpus对decoder进行预训练,因此decoder的模型是被预训练的声学表示初始化。预训练过程中,用teacher force的方式,让decoder学习从当前声学帧预测下一声学帧,因而这一训练过程中并不需要文本,deocder学到一个帧级别的声学模型。

decoder预训练之后,用paired-data对encoder-decoder的所有参数进行fine-tune。有了预训练之后,decoder在此阶段更注重学习对齐关系。
decoder预训练和fine-tune过程中有mismatch:decoder过程中,输入仅为上一帧,fine-tune过程中还要额外输入encoder的text representation.尽管如此,decoder的预训练仍然是有助于模型快速收敛。

3. EXPERIMENTS

3.1. Data requirements of the baseline Tacotron

探究tacotron所需数据的下限
12min:胡言乱语
24min:无法生成可听懂的语音
3~10h:语音质量有下降,但也不错
10h~40h:非常好的语音质量

因此本文用24min为实验边界

VCTK预训练decoder(英伦腔),fine-tune用的是US english speaker

Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis_第2张图片

Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis_第3张图片

你可能感兴趣的:(paper笔记)