AI视野·今日CS.Sound 声学论文速览
Fri, 29 Sep 2023
Totally 1 papers
上期速览✈更多精彩请移步主页
Audio-Visual Speaker Verification via Joint Cross-Attention Authors R. Gnana Praveen, Jahangir Alam 使用语音信号进行了说话人验证的广泛探索,使用深度模型已显示出显着的改进。最近,人们对面孔和声音的探索激增,因为与仅依赖单一语音信号模态相比,它们可以提供更多补充和更全面的信息。尽管目前文献中有关面部和声音融合的方法已经显示出比个人面部或语音模态的方法有所改进,但视听融合在说话人验证方面的潜力尚未得到充分开发。大多数基于视听融合的现有方法要么依赖于分数级别融合,要么依赖于简单的特征串联。在这项工作中,我们探索了跨模态联合注意力,以充分利用模间互补信息和模内信息进行说话人验证。具体来说,我们根据联合特征表示和个体特征表示之间的相关性来估计交叉注意力权重,以便有效地捕获面部和声音之间的模内以及模间关系。我们已经证明,有效利用模内和模间关系可以显着提高用于说话人验证的视听融合的性能。该方法的性能已在 Voxceleb1 数据集上进行了评估。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩请移步主页
pic from pexels.com