2.FINE-TUNING WAV2VEC2 FOR SPEAKER RECOGNITION

摘要:本文探讨了将 wav2vec2 框架应用于说话人识别而不是语音识别。 我们研究了预先训练的权重对说话人识别任务的有效性,以及如何将 wav2vec2 输出序列汇集到固定长度的说话人嵌入中。 为了使框架适应说话人识别,我们提出了具有交叉熵或加性角度 softmax 损失的单话语分类变体,以及具有 BCE 损失的话语对分类变体。 我们表现最好的变体在扩展的 voxceleb1 测试集上实现了 1.88% 的 EER,而 ECAPA-TDNN 基线的 EER 为 1.69%。 代码可在 github.com/nikvaessen/w2v2-speaker 获得。

1介绍

        在自然语言处理 (NLP) 领域,在各种 NLP 上微调自监督预训练模型(例如 BERT [1]、XLNet [2] 和 T5 [3])已成为标准任务。最近,这种预训练和微调的框架也已成功用于带有 wav2vec2 [4] 的自动语音识别。本研究的目的是探索在与语音识别不同的任务(即说话人识别)上微调 wav2vec2 预训练网络的可行性。
        BERT 和 wav2vec2 网络在设计上有共同点。两者都有一堆变换层,并且它们使用带有掩码输入的自我监督、对比预训练。但是,它们在三个主要方面有所不同:1) wav2vec2 中编码器的输入标记是由 CNN 处理的原始音频,而不是 WordPiece 嵌入,2) wav2vec2 使用由 CNN 计算的相对位置嵌入而不是正弦位置嵌入,3)在 wav2vec2 的预训练过程中没有类标记和等效的下一句预测任务。
        BERT 中的类标记用于对句子对分类任务(例如蕴涵)和单句分类任务(例如情感分析)进行微调。它不用于单句标记任务࿰

你可能感兴趣的:(声纹识别,python,机器学习,开发语言)