20.LOCAL INFORMATION MODELING WITH SELF-ATTENTION FORSPEAKER VERIFICATION

论文题目:说话人验证的自注意局部信息建模 

论文地址:下载地址

摘要:基于自注意机制的Transformer在大多数自然语言处理(NLP)任务中表现出了最先进的性能,但在以往的工作中应用于说话人验证时并不具有很强的竞争力。 一般来说,说话人身份大多通过相邻令牌之间的关系来反映,其提取主要依赖于局部建模能力。 然而,自注意力模块作为Transformer的关键部件,可以帮助模型充分利用全局信息,但不足以捕捉局部信息。 针对这一缺陷,本文从两个不同的方面加强了局部信息建模:将注意力上下文限制为局部和将卷积操作引入Transformer。 在VoxCeleb上进行的实验表明,本文提出的方法能够显著提高系统性能,验证了局部信息对说话人验证任务的重要性。 

1.介绍

        说话人验证(SV)是一项利用说话人的语音来验证说话人身份的任务。 在给定两个说话人的情况下,典型的SV系统可以提取说话人嵌入并自动判断两个说话人是否属于同一说话人。 一般来说,一个典型的SV系统包括两个部分。 第一个是嵌入提取器[1,2,3,4,5],用于从可变长度的话语中提取固定长度的说话人表示。 另一种是后端模型[6,7],其目的是计算说话人嵌入向量之间的相似度。

        随着深度学习方法在其他领域的广泛应用,DNN的有效性得到了广泛的证明。 在此基础上࿰

你可能感兴趣的:(声纹识别,深度学习,人工智能,transformer)