X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION总结

目录

1.摘要

2.前言

3.说话人识别系统SPEAKER RECOGNITION SYSTEMS

3.1Acoustic i-vector

3.2Phonetic bottleneck i-vector

3.3x-vector

4.数据增广Data augmentation


关键字:说话人识别,深度神经网络,数据增强,X-vectors

1.摘要

使用数据增强来提高深度神经网络(DNN)嵌入的说话人识别的性能。DNN被训练用来区分说话者,它将可变长度的话语映射到固定维的嵌入中,我们称之为x-vectors。使用数据增强,包括增加噪声和混响,提高鲁棒性。

2.前言

本文之前常用的模型叫做i-vectors,该文提出的模型叫做x-vectors。在训练特征的提取时采用了数据增强的方式,有效提高了DNN的性能。

i-vectors由UBM模型、映射矩阵T和分类器组成,UBM是一个通用的声学特征提取器,提取的特征向量features,送入映射矩阵T,得到维度低一些的i-vectors,由分类器判别i-vectors是否来自不同说话人。

神经网络可以直接被优化为说话人识别器,且仅仅需要说话人的标签。

3.说话人识别系统SPEAKER RECOGNITION SYSTEMS

3.1Acoustic i-vector

基于GMM-UBM架构,特征是20个mfcc,帧长为25ms,在3秒的滑动窗口上进行规范化。特征向量是附加了增量和加速创建的60维向量。基于能量的语音活动检测(SAD)用来选择与语音帧相对应的特征。UBM是一个2048分量的全协方差GMM。该系统使用一个600维的i-vector提取器和评分用的PLDA。

3.2Phonetic bottleneck i-vector

这个i-vector包含了来自ASR DNN声学模型的语音瓶颈特征(BNF)。DNN是一种具有p范数非线性的时滞声学模型。ASR DNN倒数第二层被60维的线性瓶颈层取代。BNF与第3.1节中描述的mfcc和增量连接起来,成100维的特征。该系统的其余组成部分(特征处理、UBM、i-vector提取器和PLDA分类器)与第3.1节中的声学vector相同。

3.3x-vector

这些特征是24维的滤波器组,帧长为25ms,在一个高达3秒的滑动窗口上进行平均归一化。与在基线系统中使用的相同的SAD算法过滤掉非语音帧(空白帧)。

X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION总结_第1张图片

 如图所示,一段语音分为T段,每段有15帧。前五层是帧级网络,网络的连接图如下(手绘图来自声纹识别X-Vector - 草祭 (yyqx.online)):

X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION总结_第2张图片

 

 第一层的每一个输出由[t-2, t+2]区间 范围的5个帧拼接得出,第二层的输出由{t-2,t,t+2}集合内的3个帧拼接,但总的来说,往前推的话其实是由第一层前输入的9个帧计算得来的,第三层、第四层以此类推,最终的输出融合了15个帧的信息

每个段的15帧经过statistics polling统计池化层,即T个1500维的向量,在每个维度上计算均值和方差,得到1500维的均值向量加1500维的方差向量,共计3000维的向量,该向量融合了所有段的信息

最后经过softmax层输出说话人概率。

4.数据增广Data augmentation

增强增加了现有训练数据的数量和多样性。我们的策略是附加噪声和混响。混响包括将房间脉冲响应(RIR)与音频进行卷积。对于附加噪声,我们使用MUSAN数据集,它包含超过900个噪音,来自不同类型的42小时的音乐和来自12种语言的60小时的语音。

为了增加录音,我们在以下随机选择之一:

  • 说话声:从MUSAN语音中随机抽取3到7个说话者,累加起来,然后添加到原始信号中(13-20dB信噪比)。
  • 音乐:从MUSAN中随机选择一个单一的音乐文件,根据需要进行裁剪或重复,并添加到原始信号中(5-15dB信噪比)。
  • 噪声:在整个音频中每秒钟添加MUSAN噪声(0-15dB信噪比)。
  • 混响:与模拟RIRs的卷积进行人工混响。

你可能感兴趣的:(机器学习,dnn,深度学习,机器学习)