FastSpeech2

作者:Yi Ren
单位:浙大&微软
会议:

abstract

  • FastSpeech 的训练依赖自回归的teacher model用于duration prediction,以及knowledge distillation的模块;然而fastspeech存在的问题是:(1)teacher-student distillation pipeline复杂而且耗时;(2)teacher model提取的duration不准确;而且由于数据简化,teacher model提取的mel-spec会有信息的损失;

  • 改进:(1)直接用ground-truth训练模型;(2)引入speech更多的变量(pitch, energy and more accurate duration)作为条件输入;这些变量train的时候是从wav直接提取的,infer的时候是预测值;pitch的处理引入CWT变换, pitch, energy都做了256-d的量化处理;duration train的时候来自Force align,infer的时候来自duration module;

  • fastspeech2s的改进在于直接从txt预测waveform。

  • 结果:FastSpeech 2 比FastSpeech 预测速度加速3x;FastSpeech 2 and 2s的语音质量都比FastSpeech 好;

1. Introduction

FastSpeech的优点:(1)预测的mel作为target,知识蒸馏;(2)duration预测模块;
缺点:(1)two-stage teacher-student training太复杂;(2)知识蒸馏会有信息损失,因为生成的语音质量比用真实的作为target差;(3)teacher model提取的 attention map不精确;

MOTIVATION:解决TTS上one-to-many的问题(不同句子对应同样的文本输入)

FastSpeech2的改进:(1)直接用真实的mel作为target;(2)加入数据变量----加入额外的条件输入(duration,pitch,energy),训练阶段这些特征直接从target中提取,infer阶段是predictor预测的(predictor和FastSpeech2模型一起训练);

  • 直接预测F0比较困难,将F0用CWT变换到频率域。

2.3 VARIANCE ADAPTOR

FastSpeech2_第1张图片

  1. a duration predictor (i.e., the length regulator, as used in FastSpeech),
  2. a pitch predictor, and
  3. an energy predictor,
    模型结构一样,target 数据不一样

Pitch Predictor

因为基频变换十分剧烈,很难建模,因此更适合用CWT对特征进行处理;
(1)F0首先取log;
(2)对数域的数据做0-1均值方差归一化;
(3)数据做CWT处理,作为Pitch Predictor 的训练target;
(4)infer阶段,对预测的F0-spec再次做iCWT逆变换,均值方差逆回归,恢复到log-F0;
(5)对log F0量化到256数值(把连续数值离散化,数值区间等分,表现为one-hot形式),然后将量化后的用网络处理为256 log f0-embedding,concat到网络中;

2.4 FASTSPEECH 2S 直接预测波形

难点:(1)information gap:采样点中包含的信息比mel-spec中更多,因此输入txt和target的gap更大;(2)采样点很长,但是GPU资源有限,如果把音频裁剪成更小的段,很难建模不同文本序列中phn的关系;
解决方法:(1)因为音频的相位很难预测,在waveform decoder中加入对抗训练,可以更好的恢复波形;

你可能感兴趣的:(paper笔记)