16.TMS: A Temporal Multi-scale Backbone Design forSpeaker Embedding(2022.5)

论文题目:TMS:一种面向说话人嵌入的时态多尺度骨干网设计

论文地址:https://arxiv.org/abs/2203.09098

摘要:说话人嵌入是许多需要说话人信息的语音应用中探索可区分说话人特征(例如X-vector)的重要前端模块。当前最先进的用于说话人嵌入的骨干网络被设计为利用用于说话人表示的多分支网络体系结构(例如,ECAPA-TDNN)来聚合来自话语的多尺度特征。然而,由于模型参数的快速增加和计算的复杂性,单纯地通过简单的全卷积运算增加多个多尺度特征的分支并不能有效地提高性能。因此,在目前最先进的网络体系结构中,只有与有限数量的时间尺度相对应的少数分支可以被设计用于说话人嵌入。为了解决这一问题,本文提出了一种有效的时间多尺度(TMS)模型,该模型可以在几乎不增加计算代价的情况下有效地在说话人嵌入网络中设计多尺度分支。该模型基于传统的时延神经网络(TDNN),将网络结构巧妙地分解为两个建模算子:一个通道建模算子和一个时间多分支建模算子。在时态多分支算子中加入时态多尺度只需要增加少量的参数,从而节省了增加更多时态尺度分支的计算开销。此外,在对模型进行训练后,在推理阶段,我们进一步开发了一种系统的再参数化方法将多分支网络拓扑转换为基于单路径的拓扑ÿ

你可能感兴趣的:(声纹识别,人工智能,深度学习)