Attentive Statistics Pooling for Deep Speaker Embedding
摘要
本文提出了在与文本无关的说话人验证中深度说话人嵌入的细心统计汇总。在传统的扬声器嵌入中,帧级特征被用于单个话语的所有帧以形成话语级特征。我们的方法利用注意机制为不同的帧提供不同的权重,不仅生成加权平均值,还生成加权标准差。通过这种方式,它可以更有效地捕捉说话人特征的长期变化。对NIST SRE 2012和VoxCeleb数据集的评估表明,它将传统方法的等错误率(EER)分别降低了7.5%和8.1%。
索引术语:说话人识别,深度神经网络,注意,统计汇集
1.简介
在过去的十年中,说话人识别在i-vector范例[1]中得到了很大的发展,其中语音扩展或说话者以固定低维特征向量的形式表示。
随着对包括自动语音识别(ASR)在内的各种机器学习任务的深度学习的巨大成功,越来越多的研究引入了深入学习用于说话人识别的特征提取。在早期研究[2,3]中,从ASR的声学模型中得出的深度神经网络(DNN)已被用作通用背景模型(UBM),以提供音素内部以及瓶颈特征,这些特征用于,分别是i向量提取中的零级和一级统计量。虽然它们表现出比基于高斯混合模型(GMM)的传统UBM更好的性能,但它们具有语言依赖性的缺点[4]并且还需要昂贵的语音转录用于训练[5]。
最近,已经证明DNN可以独立于i-vector框架提取说话者判别特征向量。在大规模训练数据的帮助下,这种方法可以产生更好的结果,特别是在短时间发声的情况下。在固定短语文本相关的说话者验证中,已经提出了一种基于端到端神经网络的方法[6],其中使用来自最后一帧的单个输出的长短期记忆(LSTM)来获得话语。级别的扬声器功能,它已经超越了传统的i-vector提取.
在与文本无关的说话人验证中,输入信号可以有可变的短语和长度,引入了一个平均汇聚层来聚合帧级扬声器特征向量,以获得话语级特征向量,即说话者嵌入,具有固定数量的维度。最近的研究表明,DNN比i载体具有更好的准确性[7,8]。斯奈德等人。 [9]采用了平均汇集的扩展,其中他们所谓的统计汇总不仅计算平均值,还计算帧级特征的标准差。然而,他们还没有报告标准偏差汇集对准确性改进的有效性。
最近从不同角度进行的其他研究[10,11]引入了注意机制[12]。它以前在机器翻译方面取得了显着进步。在说话人识别的场景中,重要性度量由作为说话者嵌入网络的一部分的小型关注网络计算。重要性用于计算帧级特征向量的加权平均值。该机制使得说话者嵌入能够集中在重要帧上并且获得具有更高辨别力的长期说话者表示。然而,此类先前的工作仅在诸如固定持续时间文本无关[10]或文本相关说话人识别[11]等有限任务中进行了评估。
在本文中,我们提出了一种新的池化方法,称为注意统计池,它提供重要性加权的标准偏差以及帧级特征的加权平均值,其重要性由一个注意机制计算。这使得扬声器嵌入能够更准确和有效地捕获关于长期变化的扬声器因子。据我们所知,这是文献中首次尝试在文本独立和可变持续时间的情景中使用细心的统计学汇集。我们还通过比较各种汇集层,通过实验证明了标准偏差导致的长期说话人特征的有效性。
本文的其余部分组织如下:第2节描述了一种用于提取深度扬声器嵌入的传统方法。第3节回顾了传统方法的两个扩展,然后介绍了所提出的扬声器嵌入方法。实验设置和结果在第4节中介绍。第5节总结了我们的工作并记录了未来的计划。
2.深层扬声器嵌入
用于提取话语级扬声器特征的传统DNN由三个块组成,如图1所示。
第一个块是帧级特征提取器。该块的输入是一系列声学特征,例如MFCC和滤波器组系数。在考虑相对短期的声学特征之后,该块输出帧级特征。任何类型的神经网络都适用于提取器,例如,时延神经网络(TDNN)[9],卷积神经网络(CNN)[7,8],LSTM [10,11]或门控循环单位(GRU)[8]。
第二个块是池化层,它将可变长度的帧级特征转换为固定维向量。最标准类型的池层获得所有帧级特征的平均值(平均池)。
第三个块是一个话语级特征提取器,其中堆叠了许多完全连接的隐藏层。这些隐藏层中的一个通常被设计成具有较少数量的单元(即,成为瓶颈层),这迫使从前一层带来的信息成为低维表示。输出是softmax层,其每个输出节点对应一个扬声器ID。对于训练,我们采用具有交叉熵损失的反向传播。然后我们可以在第三个块中使用瓶颈功能作为话语级功能。一些研究通过使用对比损失[7]或三重态损失[8]来避免使用soft-max层并实现端到端神经网络。概率线性判别分析(PLDA)[13,14]也可用于测量两个话语水平特征之间的距离[9,10]。
3.注意高阶汇集
上一节中描述的传统扬声器嵌入建议增加池化方法的两个扩展:使用高阶统计量和使用注意机制。在本节中,我们将回顾两者,然后介绍我们提出的池化方法,我们将其称为注意力统计池。
3.1统计汇集
统计汇总层[9]计算平均向量μ以及二阶统计量作为标准差
标准偏差(2)也起着重要的作用,因为它在长时间背景下的时间变异性方面包含其他说话者特征。 LSTM能够使用其循环连接和门控功能将相对较长的上下文考虑在内。 然而,由于消失的梯度问题,LSTM的范围实际上不超过一秒(~100帧)[15]。 标准偏差可能能够揭示上下文中的任何距离,可以帮助说话人嵌入捕获长期变化的话语。
3.2 注意机制
通常的情况是,某些帧的帧级特征对于区分说话者而言比给定话语中的其他帧更加独特和重要。 最近的研究[10,11]通过自动计算每个帧的重要性,将注意机制应用于说话人识别,以便进行帧选择。
注意模型与原始DNN一起使用,并为每个帧级特征计算标量记分
我们在此报告说话人验证准确度w.r.t. NIST SRE 2012 [16] Common Condition 2(SRE12 CC2)和Vox-Celeb corpora [7]。深度扬声器嵌入与我们周到的统计池相比,与传统的统计池和细心的平均池相比,以及基于GMM-UBM的传统i-vector提取。
基线i-vector系统每10ms使用20维MFCC。它们的三角形和三角形 - 三角形特征被附加以形成60维声学特征。然后按顺序应用具有3秒窗口和基于能量的语音活动检测(VAD)的滑动均值正常化。然后使用2048-混合物UBM和总变异性矩阵(TVM)从声学特征向量中提取400维的i向量。平均减法,白化和长度标准化[17]作为预处理步骤应用于i-向量,然后将其发送到PLDA,然后使用具有400维扬声器空间的PLDA模型评估相似性。
4.1.2深层扬声器嵌入系统
我们使用20维MFCC进行SRE12评估,并使用40维MFCC进行VoxCeleb评估,每10毫秒进行一次。然后以与使用i-载体系统相同的方式应用具有3秒窗口和基于能量的VAD的滑动平均归一化。
除输入维度外,网络结构与Kaldi官方存储库[18,19]中公布的配方1中显示的结构完全相同。使用具有ReLU的5层TDNN,然后进行批量归一化来提取帧级特征。每个隐藏层中的隐藏节点的数量是512.用于池化的帧级特征的维度是1500.每个帧级特征是从声学特征向量的15帧上下文生成的。
池化层聚合帧级特征,然后是2个完全连接的层,具有ReLU激活功能,批量标准化和softmax输出层。来自第一个完全连接层的512维瓶颈特征被用作扬声器嵌入。
我们尝试了四种汇集技术来评估所提出方法的有效性:(i)简单的平均汇集仅产生均值,(ii)统计汇集以产生均值和标准差,(iii)注意平均汇集以产生加权意味着,以及(iv)我们建议的专注统计数据池。我们使用ReLU,然后对注意模型的(3)中的激活函数f()进行批量归一化。隐藏节点的数量是64。
将平均减法,白化和长度归一化应用于扬声器嵌入,作为在将其发送到PLDA之前的预处理步骤,然后使用具有512维扬声器空间的PLDA模型来评估相似性。
4.1.3培训和评估数据
为了避免条件不匹配,每个评估任务使用不同的训练数据w.r.t. SRE12 CC2和Vox- Celeb。
对于SRE12评估,来自SRE04-10,Switchboard和Fisher English的电话录音被用作训练数据。我们还以下列方式将数据增强应用于训练集:(a)加性噪声:每个段与PRISM语料库中的一个噪声样本混合[20](SNR:8,15或20dB), (b)混响:每个段与REVERB挑战数据中的一个房间脉冲响应进行卷积[21],(c)语音编码:每个段用AMR编解码器(6.7或4.75kbps)编码。我们使用的评估集是SRE12 Common Condition 2(CC2),它被称为电话会话的典型子集,没有增加噪声。
对于VoxCeleb评估,[7]中定义的开发和测试集分别用作训练数据和评估数据。培训和评估集中的发言人数分别为1,206和40。培训和评估组的细分数分别为140,286和4,772。请注意,由于官方下载服务器上有一些死链接,这些数字略小于[7]中报告的数字。我们还使用了上面提到的数据增强(a)和(b)。
我们在这里报告结果的等错误率(EER)和归一化检测成本函数的最小值,我们假设先验目标概率Ptar为0.01(DCF10-2)或0.001(DCF10-3),并且权重相等在未命中Cmiss和误报Cfa之间的1.0。
这反映了使用长上下文和帧重要性的效果。然而,传统的i-vector系统比基于扬声器嵌入的系统更好,除了性能w.r.t. EER。这似乎是因为SRE12 CC2任务包括长话语试验,其中测试话语的持续时间为30秒至300秒,多次登记话语的持续时间超过300秒。
表2显示了NIST SRE12 CC2上几个持续时间的EER比较。我们可以看到深层扬声器嵌入在短时试验中提供了稳健性。尽管i-vector在最长持续时间条件下(300s)提供了最佳性能,但我们专注的统计数据池在所有其他条件下均达到最佳,错误率优于所有条件下的统计数据池,包括池(总体平均值) )。在30秒试验和100秒试验中,只有细心的统计汇总表现出比i载体更好的性能。
4.2.2.VoxCeleb
表3显示了VoxCeleb测试集的性能。此外,注意力和标准偏差的增加也有助于提高性能。与SRE12 CC2案例一样,标准偏差的增加比注意力的影响更大。所提出的细心统计汇总在所有评估指标中都取得了最佳表现,在EER方面比统计汇集率提高了8.1%。这可能是因为持续时间短于SRE12 CC2(在评估中平均约8秒),并且扬声器嵌入也优于i-vector。应该注意的是,与[7]中显示的基线性能相比,其最佳EER为7.8%,我们的实验系统获得了更好的性能,即使我们使用稍微较小的训练和评估集,因为缺少某些视频。
5.总结和未来的工作
我们已经提出了用于提取深度扬声器嵌入的细心统计池。建议的汇集层计算加权平均值和加权标准偏差,超过由关注模型缩放的帧级特征。这使得扬声器嵌入能够仅关注重要帧。此外,作为标准偏差中的说话人特征,可以获得长期变化。注意力和标准偏差的这种组合产生协同效应,以使深度扬声器嵌入更高的辨别力。 NIST SRE 2012和VoxCeleb评估集上与文本无关的说话人验证实验表明,它将传统方法的EER分别降低了7.5%和8.1%。虽然我们在短期和长期条件下都取得了相当大的进步,但是i载体在长时间内仍然具有竞争力(例如,SRE12 CC2中的300s)。在这种条件下追求更高的准确性是我们未来工作的一个问题。