tacotron2 介绍

论文地址:

natural tts synthesis by conditioning wavenet on mel spectrogram predictions

https://arxiv.org/pdf/1712.05884.pdf

 

论文翻译

https://my.oschina.net/stephenyng/blog/1620467

 

一、模型框架

a. 一个引入注意力机制(attention)的基于循环seq2seq的特征预测网络,用于从输入的字符序列预测梅尔频谱的帧序列;

b. 一个WaveNet网络的修订版,用于基于预测的梅尔频谱帧序列来学习产生时域波形样本。

c. 连接层:低层次的声学表征-梅尔频率声谱图

tacotron2 介绍_第1张图片
 

1.梅尔频率声谱图作为衔接层:

a.梅尔频谱比波形样本更平滑,并且由于其每一帧都是对相位不变的,所以更容易用均方误差损失(MSE)进行训练

 

b.线性频率声谱图:短时傅里叶变换的振幅

梅尔频谱是对短时傅里叶变换的频率轴施加一个非线性变换,用较少的维度对频率范围进行压缩变换得到的.

强调语音的低频细节,低频细节对语音的可理解度非常关键,

同时淡化高频细节,而高频部分通常被磨擦声和其他爆裂噪声所主导,因此基本上在高保真处理中不需要对高频部分进行建模.

 

注:线性声谱图抛弃了相位信息(因此是有损的),而像Griffin-Lim这样的算法可以对抛弃的相位信息进行估计,用一个短时傅里叶逆变换就可以把线性声谱图转换成时域波形。

梅尔声谱图抛弃的信息更多,因此对逆向波形合成任务提出了挑战。

 

2.频谱预测网络

a.tacotron的做法

在Tactron中,使用50毫秒帧长,12.5毫秒帧移,汉宁窗截取,然后施加短时傅里叶变换(STFT)得出线性频谱。

然后使用频率范围在125赫兹到7.6K赫兹之间的80通道的梅尔滤波器组对STFT的线性频率进行过滤,

后接对数函数进行范围压缩,从而把STFT幅度转换到梅尔刻度上。

在进行对数压缩前,滤波器组的输出振幅被稳定到最小0.01以便限制其在对数域中的动态取值范围。

 

b.tacotron2的做法

(1)编码器

I.输入字符被编码成512维的字符向量

II.3层卷积,每层卷积包含512个5 x 1的卷积核,即每个卷积核横跨5个字符,后接批标准化(batch normalization)[18]和ReLU激活函数

III.双向 LSTM层用以生成编码特征,这个LSTM包含512个单元(每个方向256个单元)

 

(2)引入注意力机制的解码器

解码器是一个自回归的循环神经网络

I.一个每层由256个隐藏ReLU单元组成的双层全连接的“pre-net”

II.pre-net的输出和注意力上下文向量拼接在一起,传给一个两层堆叠的由1024个单元组成的单向LSTM

III.LSTM的输出再次和注意力上下文向量拼接在一起,然后经过一个线性变换投影来预测目标频谱帧

IIII.目标频谱帧经过一个5层卷积的“post-net”来预测一个残差叠加到卷积前的频谱帧上

 

post-net的每层由512个5 × 1卷积核和一个批标准化处理组成,除了最后一层卷积,每层的批标准化处理都后接一个tanh激活函数

网络中的卷积层使用概率为0.5的dropout进行正则化处理,LSTM层使用概率为0.1的zoneout进行正则化处理。

为了在推断时给输出结果带来些变化,概率为0.5的dropout只施加在自回归解码器的pre-net上

 

c.与Tacotron对比

新模型使用更简洁的构造模块,在编码器和解码器中不使用Tacotron中的“CBHG”堆叠结构和GRU循环层,转而使用普通的LSTM和卷积层。我们没有在解码器的输出中使用“缩小因子(reduction factor)”,即每个解码步骤只输出一个单独的频谱帧。

 

3.WaveNet 声码器

a.梅儿频谱特征表达逆变换为时域波形样本。

在WaveNet的原架构中,有30个扩大卷积层,分3个循环进行,也就是说第k(k = 0 : : 29)层的扩张率等于2的p次方,p等于k (mod 10)。

 

b.我们没有像WaveNet那样使用softmax层预测离散片段,我们借鉴了PixelCNN++和最近WaveNet的改进版,

使用10元混合逻辑分布(10-componentMoL)来生成频率为24k赫兹的16位深的语音样本。

为了计算混合逻辑分布,WaveNet的堆叠输出传给ReLU激活函数,再连接一个线性投影层来为每一个混元预测参数(均值,对数刻度,混合权重)。

损失函数使用标定真实数据的负对数似然函数计算而得。

 

c.原始的WaveNet使用5毫秒帧率下的语言特征,音素时长,以及对数基频(F0)。

我们在实验中注意到在5毫秒帧率过于紧密,导致预测频谱数据帧时有显著的发音问题,

因此我们修改了WaveNet架构,在转置卷积网络中通过使用2层上采样把帧率改成了12.5毫秒。

tacotron2 介绍_第2张图片

你可能感兴趣的:(深度学习,语音)