X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION论文翻译

X-VECTORS:稳健的DNN嵌入式,用于声纹识别

摘要

 

在本文中,我们使用数据增强来提高深层神经网络(DNN)嵌入对于说话人识别的性能。 DNN经过训练以区分说话者,将可变长度的话语映射到我们称为x向量的固定维度嵌入。之前的研究发现,嵌入比i向量更好地利用大规模训练数据集。但是,收集大量用于训练的标记数据可能具有挑战性。我们使用数据增加,包括增加的噪声和回报,作为一种廉价的方法来增加训练数据的数量并提高鲁棒性。将x向量与野外扬声器和NIST SRE 2016 Can-tonese上的i-vector基线进行比较。我们发现虽然增强在PLDA分类器中是有益的,但它在i向量提取器中没有帮助。然而,由于其受过监督的训练,x-vector DNN有效地利用了数据增加。因此,x向量在评估数据集上实现了卓越的性能。

索引术语 - 说话人识别,深度神经网络,数据增强,x向量

 

1.简介

 

使用深度神经网络(DNN)来捕捉说话人特征是目前非常活跃的研究领域。 在我们的方法中,称为x向量的表示是从DNN中提取出来的,并且像i向量一样使用。 本文以我们最近的DNN嵌入式架构为基础[1]。 我们表明,通过噪声和混响人为地增加训练数据是提高DNN嵌入系统性能的一种非常有效的策略。

你可能感兴趣的:(深度学习声纹识别,说话人识别)