目录
ABSTRACT
1. INTRODUCTION
2. PREVIOUS WORK
3. DNN FOR SPEAKER VERIFICATION
3.1. DNN as a feature extractor
3.2. Enrollment and evaluation
3.3. DNN training procedure
4. EXPERIMENTAL RESULTS
4.1. Baseline system
4.2. DNN verification system
4.3. Effect of enrollment data
4.4. Noise robustness
4.5. System combination
5. CONCLUSIONS
Acknowledgments
6. REFERENCES
在本文中,我们研究深度神经网络(DNNs)在小型文本相关的说话者验证任务的应用。在开发阶段,DNN经过训练,可以在帧级别对说话人进行分类。在说话人录入阶段,使用训练好的的DNN用于提取来自最后隐藏层的语音特征。这些说话人特征或平均值,d-vector,用作说话人特征模型。在评估阶段,为每个话语提取d-vector与录入的说话人模型相比较,进行验证。实验结果表明基于DNN的说话人验证与常用的i-vector相比,系统在一个小的声音文本相关的说话人验证任务实现了良好的性能表现。此外,基于DNN的系统对添加的噪声更加稳健,并且在低错误拒绝操作点上优于i-vector系统。最后,组合系统在进行安静和嘈杂的条件分别优于i-vector系统以14%和25%的相对错误率(EER)。
说话者验证(Speaker verification.SV)是基于来自他/她的语音信号的信息接受或拒绝说话者的身份认证的任务。基于要说的文本,SV系统可以分为两类,文本相关和文本无关。与文本相关的SV系统需要生成语音固定或提示的文本短语,而与文本无关的SV系统在则对语音文本信息不做要求。在本文中,我们专注于一个基于固定文本小型文本依赖SV任务,虽然提出的技术可以扩展到与文本无关的任务。
SV过程可分为三个阶段:
已经使用不同的方法研究了各种各样的SV系统验证中三个阶段中每个阶段的统计工具。 国家最先进的SV系统基于i-vectors [5]和Probabilistic线性判别分析(PLDA)。 在这些系统中,使用JFA作为特征提取器提取低维i向量作为SV的语音表达的紧凑表示。
受强大的特征提取能力和最近成功应用于语音识别的深度神经网络(DNNs)的启发[6],我们提出了一种基于DNN的SV技术作为
扬声器功能提取器。一种新型的基于DNN的背景model用于直接对说话人进行建模。 DNN经过训练将给定上下文中的帧级特征映射到对应的说话人身份目标。 在注册期间,扬声器模型计算为从最后一个DNN导出的激活的平均值隐藏层,我们称之为深向量或“d向量”。 在里面评估阶段,我们使用之间的距离做出决定目标d-向量和测试d-向量,类似于i-向量SV系统。将DNN用于SV的一个显着优点是它很容易从那时起将它们整合到最先进的语音识别系统中他们可以共享相同的DNN推理引擎和简单的filterbank能量前端。
本文的其余部分安排如下。 在第2节中,描述了先前关于SV的相关工作。 在第3节中,我们描述了提出了基于DNN的SV系统。 第4节显示了实验小尺寸文本相关SV系统的结果。 DNN-基于SV的系统与i-vector系统进行了比较和嘈杂的条件。 我们还用不同的方式评估性能不少数量的入学话语和描述改进来自两个系统的组合。 最后,第5节总结了论文并讨论未来的工作。
i-vector和PLDA [5,7]的组合已成为与文本无关的说话人识别的主要方法。 i-vector表示名为的低维空间中的话语总可变性空间。 给定一个话语,说话人和会话相关的GMM超向量定义如下:
M = m + Tw (1)
其中m是与说话人和会话无关的超向量,通常被认为是UBM超向量,T是低秩的矩形矩阵,称为总可变性矩阵(TVM),w是具有标准正态的随机向量 分布N(0,I)。向量w包含总因子并且被称为i-vector。
此外,与JFA相比,i向量上的PLDA可以更有效地将总变异性分解为说话者和会话变异性。 i-vector-PLDA技术及其变体也已成功用于与文本相关的说话人识别任务[8,9,10]。
在过去的研究中,神经网络已被研究用于说话人识别[11,12]。 作为非线性分类器,神经网络可以区分不同说话者的特征。 神经网络通常用作目标和非目标说话者的二元分类器,或用于说话人识别目的的多类别分类器。 提出自动关联神经网络(AANN)[13]使用从UBM-AANN和说话者特定AANN计算的重建误差差异作为验证分数。 具有瓶颈层的多层感知器(MLP)已经被用于获得用于说话人识别的强大特征[14]。最近,已经进行了一些关于使用深度学习进行说话人识别的初步研究,例如使用卷积深信念网络。 [15]和玻尔兹曼机器分类器[16]。
图片1.基于深度神经网络的模型
提出的SV背景DNN模型如图1所示。在神经网络用于学习说话人特定功能的意义上,这个想法类似于[15]。 主要区别在于我们在这里执行监督训练,并使用DNN而不是卷积神经网络。 此外,在本文中,我们评估SV任务而不是简单的说话人识别任务。
在这项工作中提出的方法的核心是使用DNN架构作为说话人特征提取器的想法。 与i-vector方法一样,我们寻找扬声器声学帧的更抽象和紧凑的表示,但使用DNN而不是生成因子分析模型。
为此,我们首先构建了一个在框架级操作的受监督DNN,以对开发集中的说话人进行分类。 该背景网络的输入是通过将每个训练帧与其左右上下文帧堆叠而形成的。 输出的数量对应于显影组中的扬声器的数量N.目标标签形成为独热的N维向量,其中唯一的非零分量是对应于说话者身份的分量。 图1显示了DNN拓扑。
一旦DNN训练完成了,我们就使用最后隐藏层的累积输出激活作为新的说话者表示。 也就是说,对于属于新发言者的给定话语的每一帧,我们使用训练好的DNN中的标准前馈传播计算最后隐藏层的输出激活,然后累积这些激活以形成该发言者的新紧凑表示, d向量。 由于几个原因,我们选择使用最后一个隐藏层的输出而不是softmax输出层。
首先,我们可以通过修剪输出层来减少运行时的DNN模型大小,这也使我们能够在运行时使用大量开发说话人而不增加DNN大小(举例说明,我们训练在10000个人或者1000个人的情况下,可以只通过修改最后的softmax层的大小,前面的结构保持不变,这样实现了增加训练类比和数目,特征向量不变)。 其次,我们观察到从最后一个隐藏层输出中对未训练的说话人有更好的推广(softmax对训练label响应非常灵敏,更加倾向于表征某个人,而不是特征向量)。(由此可以推断,倒数第二个隐层也有类似的效果)
这里的基本假设是,训练有素的DNN,在最后隐藏层的输出中学习了开发集合说话者的紧凑表示,也可以表表征未训练过的说话者。
给定一组来自说话者的话语X s = {O s 1,O s 2,...,O sn},观察O si = {o 1,o 2,...,om},该过程 注册可以描述如下。 首先,我们使用话语O s i中的每个观察结果及其背景来喂给受监督的训练DNN。 然后获得最后隐藏层的输出,L2归一化,并且对于O s i中的所有观察结果累加。 我们将得到的累积向量称为与话语O s i相关联的d向量。 通过对与X s中的话语相对应的所有d向量求平均来导出说话者s的最终表示。(为什么进行l2-norm,对于两个向量的l2-norm进行点积,就可以得到这两个向量的余弦相似性。)
在评估阶段,我们首先从测试话语中提取归一化的d-向量。 然后我们计算测试d-向量和声称的说话者的d-向量之间的余弦距离。 通过将距离与阈值进行比较来做出验证决定。(重点,阈值如何选取)
鉴于本研究中探讨的情景资源较低(参见第4节),我们使用dropout[17] [18]将背景DNN训练为最大DNN。
当使用小型训练集时,dropout是防止DNN微调过度拟合的有用策略[18] [19]。 实质上,dropout训练程序包括随机忽略每个训练令牌的某些隐藏单位。 Maxout DNNs [17]被设想为正确利用dropout属性。 Maxout网络与标准多层感知器(MLP)的不同之处在于,每层的隐藏单元被划分为非重叠组。 每个组通过最大池操作生成单个激活。 maxout网络的培训可以优化每个单元的激活功能。
具体来说,在本研究中,我们在DistBelief框架[20]内训练了一个最大DNN,其中包含四个隐藏层和每层256个节点。每层使用2个池大小。 前两个层不使用dropout,而最后两个层在dropout后丢弃50%的激活,如图1所示
关于其他配置参数,我们使用ReLU[21]作为隐藏单元的非线性激活函数,学习率为0.001,指数衰减(每5M步长0.1)。 DNN的输入通过堆叠从给定帧提取的40维对数滤波器组能量特征以及其上下文,左边30帧和右边10帧来形成。 训练目标向量的维数为496,与开发集中的发言人数量相同(参见第4节)。 最终的最大DNN模型包含大约600K参数,其类似于最小的基线i-矢量系统。
实验是在一个小的文本相关的SV任务上进行的。 该数据集包含646个发言者,在多个会话中多次使用相同的短语“ok google”。 性别分布在数据集上是平衡的。 496名随机选择的发言人用于培训背景模型,其余150名发言人用于注册和评估。 用于背景模型训练的每个说话者的话语数量从60到130不等。对于注册发言者,前20个话语被保留用于登记中可能的使用,剩余的话语用于评估。 默认情况下,我们仅使用注册集的前4个话语来提取说话人模型。 我们使用150个试验中的一个作为目标试验,总共进行了大约12750次试验。
在这个小型文本相关的SV任务中,我们的目标是保持模型尺寸小,同时实现良好的性能。基线系统是基于i矢量的SV系统,类似于[5]。 GMM UBM在13维感知线性预测(PLP)特征上进行训练,其中附加了Δ和ΔΔ特征。我们评估具有三种不同模型尺寸的i-vector系统的等错误率(EER)性能。 UBM中的高斯分量的数量,i向量的维数和线性判别分析(LDA)输出的维数是变化的。使用PCA初始化TVM并使用10次EM迭代进一步细化,而对于UBM训练,我们使用7次EM迭代。如表1所示,i-vector系统性能随着模型尺寸的减小而降低,但不会太大。用于得分归一化的t-范数[22]的EER结果始终比原始得分好得多。最小的i-向量系统包含大约540K参数并且用作我们的基线系统。
表1.具有不同数量的UBM高斯分量,i向量和LDA输出维度的i向量系统的EER结果的比较。
图2中的左图显示了i向量系统和d向量系统的检测误差权衡(DET)曲线比较。 一个有趣的发现是,在d-向量系统中,原始分数略好于t-标准分数,而在i-向量系统中,t-范数分数明显更好。 d-向量系统的原始分数的直方图分析表明分布是重尾的而不是正态分布。这表明对于d向量SV系统可能需要更复杂的得分归一化方法。 此外,由于t-norm需要在运行时进行额外的存储和计算,因此除非另有说明,否则我们将使用原始分数对d-向量系统进行评估。
i-矢量系统的整体性能优于d-矢量系统:使用i-矢量t-范数得分的2.83%EER与使用d-矢量原始得分的4.54%相比。 然而,在低假拒绝区域中,如图2中的图的右下部分所示,d向量系统优于i向量系统。
我们还尝试了训练DNN的不同配置。 如果没有maxout和dropout技术,训练有素的DNN的EER绝对差2%左右。 在隐藏层中将节点数增加到512并没有太大帮助,而将节点数减少到128会使得EER更差,为7.0%。 将上下文窗口大小减小到左侧的10帧和右侧的5帧也会将EER性能降低到5.67%。
在d向量SV系统中,在注册阶段不涉及说话者适应统计。 相反,背景DNN模型用于在登记和评估阶段为每个话语提取说话者特定的特征。 在这个实验中,我们研究了d-vector系统中验证性能的变化,每个说话者的入学话语数不同。 我们使用4,8,12和20个话语比较演讲者注册的表现结果。
EER结果列于表2中。它表明,随着注册话语数量的增加,两个SV系统的表现都更好。 两种系统的趋势相似。
在实践中,开发和运行时间条件之间通常存在不匹配。 在本实验中,我们研究了d-矢量SV系统在噪声条件下的鲁棒性,并将其与i-矢量系统进行了比较。 使用干净的数据训练背景模型。 10 dB自助餐厅噪音被添加到注册和评估数据中。 DET曲线的比较如图2右图所示。如该图所示,两个系统的性能都因噪声而降低,但d矢量系统的性能损失较小。 在10 dB噪声环境下,d矢量系统的整体性能非常接近i-vector系统。 在2%或更低的假拒绝概率的操作点处,d向量系统实际上比i向量系统更好。
上述结果表明,与i-矢量系统相比,所提出的d-矢量系统可以是可行的SV方法。 该评估主要适用于噪声环境或需要小占用空间模型和低错误拒绝率的应用。 或者,这里我们的目标是提供组合的i / d矢量系统的分析。
尽管可以在特征级别设计更复杂的组合,但是我们在图3中的初步结果是使用称为求和融合的简单组合获得的,其对每个试验的每个单独系统提供的分数求和。 在两个系统中应用先前的t-标准阶段以促进分数的组合。 结果表明,组合系统在基本上所有可能的操作点和噪声条件下都优于任一组件系统。 在EER性能方面,i / d矢量系统分别在i-vector系统中击败相对,非常和嘈杂条件14%和25%。
在本文中,我们提出了一种新的基于DNN的说话人验证方法,用于小尺寸文本相关的说话者验证任务。 DNN经过训练,可以对具有帧级声学特征的说话者进行分类。 训练好的DNN用于提取说话者特定功能。 然后,与常用的i-vector类似,这些说话者特征或d-vector的平均值用于说话者验证。 实验结果表明,与i-vector系统相比,d矢量SV系统的性能相当好,系统融合比独立的i-vector系统获得了更好的效果。这两个系统的简单求和融合可以提高所有工作点的i-vector系统性能。 在干净和嘈杂的条件下,组合系统的EER分别比我们的经典i-vector系统好14%和25%。 此外,d-向量系统对注册和评估数据中的加性噪声更加鲁棒。 在低假拒绝操作点处,d向量系统优于i向量系统。
未来的工作包括改进当前余弦距离评分,以及尝试标准化方案,如原始分数的高斯化。 我们将探索不同的组合方法,例如在i向量的特征空间和堆叠的d向量上使用PLDA模型。 最后,我们的目的是研究增加开发扬声器数量以及扬声器群集如何影响性能的效果。
The authors would like to thank our
[1] D. Reynolds, T.F. Quatieri, and R.B. Dunn, “Speaker verification using adapted Gaussian mixture models,” Digital Signal
Processing, vol. 10, no. 1, pp. 19–41, 2000.
[2] P. Kenny, G. Boulianne, P. Ouellet, and P. Dumouchel, “Joint factor analysis versus eigenchannels in speaker recognition,”
IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, pp. 1435–1447, 2007.
[3] P. Kenny, G. Boulianne, P. Ouellet, and P. Dumouchel,“Speaker and session variability in GMM-based speaker verification,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, pp. 1448–1460, 2007.
[4] P. Kenny, P. Ouellet, N. Dehak, V. Gupta, and P. Dumouchel,“A study of interspeaker variability in speaker verification,”IEEE Transactions on Audio, Speech, and Language Processing, vol. 16, pp. 980–988, 2008.
[5] N. Dehak, P. J. Kenny, R. Dehak, P. Dumouchel, and P. Ouellet, “Front-end factor analysis for speaker verification,” IEEE
Transactions on Audio, Speech, and Language Processing, vol.19, pp. 788–798, 2011.
[6] G. Hinton, L. Deng, D. Yu, G. E. Dahl, A. Mohamed, N. Jaitly,A. Senior, V. Vanhoucke, P. Nguyen, T. N. Sainath, and B. Kingsbury, “Deep neural networks for acoustic modeling inspeech recognition,” IEEE Signal Processing Magazine, vol.29, pp. 82–97, November 2012.
[7] P. Kenny, “Bayesian speaker verification with heavy-tailed priors,” in Proc. Odyssey Speaker and Language Recognition Workshop, 2010.
[8] T. Stafylakis, P. Kenny, P. Ouellet, P. Perez, J. Kockmann,and P. Dumouchel, “Text-dependent speaker recogntion using PLDA with uncertainty propagation,” in Proc. Interspeech,2013.
[9] H. Aronowitz, “Text-dependent speaker verification using a small development set,” in Proc. Odyssey Speaker and Lan-
guage Recognition Workshop, 2012.
[10] A. Larcher, K.-A. Lee, B. Ma, and H. Li, “Phonetically-constrained PLDA modeling for text-dependent speaker verification with multiple short utterances,” in Proc. ICASSP, 2013.
[11] J. Oglesby and J. S. Mason, “Optimisation of neural models for speaker identification,” in Proc. ICASSP, 1990.
[12] Y. Bennani and P. Gallinari, “Connectionist approaches for automatic speaker recognition,” in ESCA Workshop on Automatic Speaker Recognition, Identification and Verification, 1994.
[13] B. Yegnanarayana and S.P. Kishore, “AANN: an alternative to GMM for pattern recognition,” Neural Networks, vol. 15, no.
3, pp. 459–469, 2002.
[14] L.P. Heck, Y. Konig, M.K. Sönmez, and M. Weintraub, “Robustness to telephone handset distortion in speaker recognition
by discriminative feature design,” Speech Communication, vol.31, no. 2, pp. 181–192, 2000.
[15] H. Lee, Y. Largman, P. Pham, and A. Ng, “Unsupervised feature learning for audio classification using convolutional deep
belief networks,” in NIPS, 2009.
[16] T. Stafylakis, P. Kenny, M. Senoussaoui, and P. Dumouchel,“Preliminary investigation of Boltzmann machine classifiers
for speaker recognitin,” in Proc. Odyssey Speaker and Language Recognition Workshop, 2012.
[17] I. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, andY. Bengio, “Maxout networks,” in Proc. JMLR, 2013, pp.
1319–1327.
[18] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Susskever, and R. R. Salakhutdinov, “Improving neural networks by prevent-
ing co-adaptation of feature detectors,” in arXive preprint,2012.
[19] G. Dahl, T. N. Sainath, and G. E. Hinton, “Improving deep neural networks for LVCSR using rectified linear units and dropout,” in Proc. ICASSP, 2013.
[20] J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, Q. Le,M.Mao, M.Ranzato, A.Senior, P.Tucker, K.Yang, andA.Ng,
“Large scale distributed deep networks,” in NIPS, 2012.
[21] V. Nair and G.E. Hinton, “Rectified linear units improve restricted Boltzmann machines,” in ICML, 2010.
[22] R. Auckenthaler, M. Carey, and H. Lloyd-Thomas, “Score normalization for text-independent speaker verification systems,”
Digital Signal Processing, vol. 10, pp. 42–54, 2000.