基于原始波形的端到端DNN中避免说话人过拟合的文本无关说话人验证

Avoiding Speaker Overfitting in End-to-End DNNs using Raw Waveform for Text-Independent Speaker Verification

 

基于原始波形的端到端DNN中避免说话人过拟合的文本无关说话人验证

Avoiding Speaker Overfitting in End-to-End DNNs using Raw Waveform for Text-Independent Speaker Verification

摘要

 

在本研究中,我们提出一种新的原始波形端到端DNN,用于与文字无关的说话人验证。对于说话人识别,许多研究都采用说话人嵌入方案,将深层神经网络训练为说话人识别器,提取说话人特征。然而,该方案具有固有的局限性,其中训练成只对已知说话人进行分类的讲话人特征需要表示未知说话人的想法。由于这种失配,说话人称谓系统倾向于从已知说话人那里向看不见的话语推广,但是适合于已知说话人。这种现象被称为扬声器过拟合。本文从减少说话人过拟合的角度出发,研究了正则化技术、多步训练方案和与汇聚层的剩余连接,这导致了显著的性能改进。使用VoxCeleb数据集对来自各种非控制环境的1200多名扬声器进行技术效果评估。据我们所知,我们是第一个验证端到端DNN是否成功直接使用文本无关场景中的原始波形。其等错误率为7.4%,低于i-向量/概率线性判别不定性分析和使用谱图的端到端DNN。

你可能感兴趣的:(深度学习声纹识别,论文翻译,说话人识别)