声纹识别中PLDA的域自适应的通用框架

A GENERALIZED FRAMEWORK FOR DOMAIN ADAPTATION OF PLDA IN SPEAKER RECOGNITION

2020顶会论文学习

提出了一种用于说话人识别中的概率线性判别分析(PLDA)领域自适应的通用框架。它不仅包括几种现有的有监督的和无监督的域自适应方法,而且还使得可以灵活地使用不同域中的可用数据。(1)基于相关对齐的插值和(2)协方差正则化。所提出的基于相关性比对的插值方法与自适应之前的域外PLDA模型相比,将minCprimary降低了30.5%,并且与具有最佳插值权重的传统线性插值方法相比,minCprimary的数值也降低了5.5%。此外,提出的正则化技术确保了插值w.r.t.的鲁棒性。改变插值权重.

  1. 最先进的说话人识别系统由x矢量(或i矢量)说话人嵌入前端,然后是PLDA后端组成,已显示出令人鼓舞的性能[11]。这些组件的有效性取决于大量标记培训数据的可用性,这些数据通常是数百小时的语音录音,其中包括来自数千名演讲者的多会话录音。但是,为每个应用程序收集如此大的域内(InD)数据作为新的关注域,将是非常昂贵的。已经存在的大多数可用资源丰富的数据将不匹配新的关注域,即大多数将是域外(OOD)数据。当说话者识别系统用于与训练数据不同的领域(例如,具有不同的语言,人口统计等)时,出现域不匹配的挑战。性能可能会大大降低。
  2. 使用少量InD数据及其说话者标签的有监督的适应[12、13、14、15],要么是无监督的适应性[16、17、18、19],而无监督的适应[16、17、18、19]扬声器标签。有监督的域适应比无监督的域更强大。
    监督域自适应方法可以进一步分为以下三种方法:1)数据池。例如,已经提出将InD数据添加到大量OOD数据中以训练PLDA [14]。 2)特征向量补偿。已经提出了使用两个域中有关数据的统计信息对OOD数据进行数据移位的方法[12]。 3)PLDA参数自适应。有人提出了一种线性插值方法,将单独训练的PLDA的参数与OOD

你可能感兴趣的:(深度学习声纹识别)