使用未经监督的对抗性不变进行强力说话人识别

ROBUST SPEAKER RECOGN ITION USING UNSUPERVISED ADVERSARIAL INVARIANCE

Raghuveer Peri, Monisankha Pal, Arindam Jati, Krishna Somandepalli, Shrikanth Narayanan
Signal Analysis and Interpretation Laboratory, University of Southern California, Los Angeles, CA, USA

 

使用未经监督的对抗性不变进行强力扬声器识别

ABSTRACT

        在本文中,我们使用一种新颖的方法来提取健壮的说话人-区分性语音表示,从而解决了在具有挑战性的声学条件下的说话人识别问题。我们采用了最近提出的无监督对抗不变性架构来训练一个网络,该网络使用预先训练的模型将说话人嵌入映射到两个较低维的嵌入空间。学习了嵌入空间,以使扬声器区分信息与音频记录中存在的所有其他信息区分开,而无需监视声学条件。我们分析了提出的嵌入对于在大型说话人识别语料库中的说话人验证和无监督聚类任务信号中存在的各种可变性来源的鲁棒性。我们的分析表明,在各种具有挑战性的声学场景中,拟议的系统明显优于基线。此外,对于现实世界会议上的说话人差异化任务,我们的系统显示出与最新基准相比,差异化错误率相对提高了36%。

索引词-对抗不变性,强大的说话人识别能力,说话人二值化

1. INTRODUCTION

       考虑到信号中可能的可变性的多种性质,从捕获扬声器特征的语音信号中获得鲁棒的扬声器嵌入,即低维表示,是一个特别具有挑战性的问题。 信号可变性可能来自各种有害因素,例如背景声噪声,房间混响,麦克风放置等。信号中这种可变性的存在使依赖于说话者区分性特征(例如说话者验证和说话者区分)的任务更具挑战性[1]。 。 这是为了提取对干扰因素不变的说话人嵌入的动机。

          直到最近,许多说话人验证研究仍基于基于生成模型的嵌入,例如i-vector [2]。 由于i-vector系统是以无监督方式进行训练的,

你可能感兴趣的:(深度学习声纹识别)