19.MFA-Conformer: Multi-scale Feature Aggregation Conformer forAutomatic Speaker Verification

论文题目:MFA-Conformer:用于说话人自动识别的多尺度特征聚合Conformer 

论文地址:https://arxiv.org/abs/2203.15249

论文代码:https://github.com/zyzisyz/mfa_conformer

摘要:本文提出了一种基于卷积增广变换的多尺度特征聚合conformer(MFA-conformer)的说话人自动识别主干网,该主干网易于实现,简单有效。 MFA-Conformer的体系结构受到了语音识别和说话人验证领域最新发展的模型的启发。 首先,我们引入了卷积子采样层降低模型的计算量。 其次,采用Conformer和卷积神经网络相结合的构造块来有效地捕捉全局和局部特征。 最后,来自所有Conformer块的输出特征映射在最终池化之前被级联以聚合多尺度表示。 我们在广泛使用的基准上评估MFA-Conformer。 在VoxCeleb1-O、SITW验证集和SITW测试集上,最佳系统的EER分别为0.64%、1.29%和1.63%。 MFA-Conformer在识别性能和推理速度上都明显优于目前流行的ECAPA-TDNN系统。 最后但并非最不重要的是,消融研究清楚地表明࿰

你可能感兴趣的:(声纹识别,深度学习,人工智能)