基于群适应融合网络提高说话人验证的公平性

IMPROVING FAIRNESS IN SPEAKER VERIFICATION VIA GROUP-ADAPTED FUSION NETWORK

摘要

  1. 现在的说话人验证系统,在训练中,SV网络通常将区分任意说话人当作优化目标。这种学习过程会使得学习优良的声音特征向主要speaker群体发生偏差,这会导致不同群体之间不公平的性能差异;

  1. 这种情况在具有相似声音特征的代表性不足的人口群体中尤其明显;

  1. 本文通过在特制数据集(不平衡的性别分布)中得到直接的证据:模型表现受到代表性不足群体的影响;

  1. 为了减少这种差异,本文提出了group-adapted fusion network--一个基于group ebmedding适应和分数融合的组合结构;

  1. 本模型减轻了模型的不公平通过在全体/单独群都提高了SV表现

Index Terms:群speaker分布不均、embedding adaptation、score fusion

你可能感兴趣的:(ICASSP,2022,深度学习)