【Rep】18.REP WORKS IN SPEAKER VERIFICATION

论文题目:

论文地址:https://arxiv.org/abs/2110.09720

摘要:多分支卷积神经网络结构在说话人验证中引起了广泛的关注,因为多个并行分支的聚集可以显著提高性能。 然而,由于模型参数的增加和额外的运算,这种设计在推理时间内效率不够高。 本文提出了一种新的多分支网络体系结构RepspkNet,该体系结构采用了重参数化技术。 利用该技术,我们的主干模型包含一个高效的类VGG推理状态,而其训练状态是一个复杂的多分支结构。 我们首先将REPVGG的具体结构引入说话人验证中,并提出了该结构的几种变体。 在基于VoxCeleb的测试集上对性能进行了评估。 我们证明了分支多样性和分支容量在RepspkNet的设计中都起着重要的作用。 我们的RepspkNet在VoxCeleb1-h上获得了1.5982%的EER和0.1374的MindCF的最先进性能。 

1 介绍

        说话人验证的目的是在给定音频段的情况下验证说话人的身份。 近年来,深度神经网络(deep neural networks,DNNs)提高了说话人验证系统的性能,优于传统的i-Vector系统[1]。 大多数基于DNN的系统,如X-Vector[2],R-Vector[3]和最近提出的ECAPA-TDNN[4,5],包括三个部分:(1)提取帧级说话人表示的网络主干,(2)聚合帧级信

你可能感兴趣的:(声纹识别,深度学习,人工智能)