NCMMSC 2023论文|基于秩的轻量级声纹模型剪枝量化

标题:Measurement of Rank-based Pruning on Lightweight Speaker Model

作者:赵保卫,刘双红,何亮

单位:新疆大学计算机科学与技术学院、清华大学电子工程系

研究背景

说话人确认的任务是判断当前语音是否属于特定的目标说话人,近年来,关于说话人确认的研究不断深入,神经网络的兴起逐渐取代了传统的机器学习算法,成为人们研究前沿技术的主流路径[1]。许多研究致力于设计不同的网络架构来克服说话人确认中的挑战。但典型的SOTA系统包含大量的参数,需要占用大量的内存和计算资源。然而,在实际应用中,说话人确认系统通常运行在内存和计算资源有限的小型嵌入式设备上。在这项工作中,我们首先使用深度可分离卷积对典型的thin-ResNet34模型进行轻量化改造,减少了大量的参数数量和计算量。此外,除了设计更轻量级的模型,网络剪枝在各种新兴应用中也表现出了广阔的前景。典型的工作要么对滤波器权重进行剪枝得到稀疏权重矩阵(权重剪枝) ,要么从网络中移除整个滤波器(滤波器剪枝) 。权重剪枝只能在特定的软件或硬件设备上实现加速效果,而滤波器剪枝方法不受此限制,可以应用于计算能力较低的通用设备。我们介绍了一种基于模型各层的秩作为剪枝指导的方法,该方法结合了输入数据和模型滤波器的内在属性,分析了特征图在模型各层中秩的展开规律。然后,我们选择低秩通道进行通道剪枝,使其适合部署在嵌入式设备上。

本文方案

1. 模型轻量化

ResNet是说话人确认任务中的常用架构,但即使是thin-ResNet34和fast-ResNet34也有高达1.4 M的参数[2],这对于嵌入式设备来说过于繁重。为了使其适用于嵌入式设备,我们首先在thin-ResNet34的基础上进行了轻量化改进。Thin-ResNet34主要由重复的基本块组成,每个基本块包含两个标准的CNN卷积层。我们将每个CNN卷积层分解为点卷积层和深度卷积层。深度卷积对每个输入通道应用单个滤波器,但跨越m个时间帧。然后,逐点卷积应用一个1 × 1卷积来组合深度卷积的所有通道的输出,但在每个时间帧独立操作。一个标准的卷积将输入特征进行组合,并在一个步骤中生成新的输出特征。另一方面,深度可分离卷积将其分解为两个独立的层:一个用于滤波,另一个用于合并。该方法与标准卷积相比,计算复杂度降低了8 ~ 9倍,而精度仅略有下降。

2. 基于特征图秩的剪枝

滤波器剪枝旨在从网络的每一层中识别并去除不重要的滤波器组。在这个框架中,许多先前的工作都是基于滤波器本身的内在性质设计的,例如它们的ℓ1范数和ℓ2范数。相比之下,本文定义了滤波器在特征图上的重要性。其原理是特征图是一个中间步骤,既能反映滤波器的特性,又能反映输入数据的特征。正如文献[3]所研究的那样,即使在同一层中,不同的特征图在网络中发挥着不同的作用。特征图包含的信息越多,与之对应的滤波器组越重要。因此,我们的关键是设计一个合适的函数,使之能够有效地反映特征图的信息丰富程度。特征图的秩作为一种有效的信息度量,可以用少量输入数据得到的特征图的秩来近似表示,另外,特征图的秩具有相当高的稳定性。

NCMMSC 2023论文|基于秩的轻量级声纹模型剪枝量化_第1张图片

图1. 轻量级模型每一层的特征图的秩,其中白色表示接近满秩的通道占当前层总通道数的比例 

实验结果分析

Thin ResNet34及其轻量化模型的通道数分别为16、32、64和128,训练策略也完全相同。与原始的Thin ResNet34相比,轻量化模型的参数量减少了66.2%,计算量减少了85.1 %,在Voxceleb数据集上训练和测试,在测试集上的EER和minDCF与基线相比平均相对降低了7.8%和29.5%。轻量级模型仅有591.4 K的参数量,适合部署在嵌入式设备上。

 NCMMSC 2023论文|基于秩的轻量级声纹模型剪枝量化_第2张图片

表1. 轻量化后模型的性能对比

我们计算了模型每一层输出特征图的秩。这个秩是在模型的每一层的relu单元之后计算得出的。在ResNet34结构中,有33个CNN卷积层,故有33个等级的特征图。在图1中,我们可以发现模型前7层的特征图几乎是满秩,在这些层中,通道维数为16,每个滤波器组都可以提取有效的特征信息。在第8 ~ 15层,少数通道的秩趋近于0,说明对应的滤波器组不能从输入数据中提取有效的特征图。另外,有些滤波器组提取的有效信息非常少,特征图的秩值不能达到满秩值的60%。我们认为这些通道是冗余的,可以被丢弃。在模型的第15层到第27层,可以明显看出每一层的有效通道数在减少,而低秩特征图的数量在不断增加。在这些层中,模型的通道数也多于前几层的通道数,占用了大量的模型参数。但是,在最后几层中,无效通道的数量约占通道总数的50%。此外,我们还可以发现,在所有的奇数层中,模型特征图的秩总是接近满秩。我们推测这是由于ResNet结构中的跳跃连接造成的。从数学上分析,将一个满秩矩阵添加到另一个矩阵中,得到的是另一个满秩矩阵。针对这一特点,我们将模型的通道修剪率设置为前7层为0,8 ~ 15层为0.12,16 ~ 27层为0.25,最后几层为0.5。通过通道剪枝,我们减少了12.4%的参数量,减少了23.4%的计算量,仅损失了1.34%的EER。 

NCMMSC 2023论文|基于秩的轻量级声纹模型剪枝量化_第3张图片 

表2. 剪枝后模型的性能比较 

小结

我们首先使用可分离卷积在thin ResNet的基础上进行了轻量化改进,然后以模型每层输出特征图的秩为指

参考文献

[1] Cai, L., Yang, Y., Chen, X., Tu, W., Chen, H.: Cs-ctcsconv1d: Small footprint speaker verification with channel split time-channel-time separable 1-dimensional convolution. In: INTERSPEECH. pp. 326–330 (2022).

[2] Nagrani, A., Chung, J.S., Zisserman, A.: Voxceleb: a large-scale speaker identification dataset. arXiv preprint arXiv:1706.08612 (2017).

[3] Lin, M., Ji, R., Wang, Y., Zhang, Y., Zhang, B., Tian, Y., Shao, L.: Hrank: Filter pruning using high-rank feature map. In: Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. pp. 1529–1538 (2020). 

导设置基于秩的通道剪枝。与原始的thin ResNet相比,该模型的参数量和计算量分别降低了70.5%和88.6%,EER仅降低了9.9%。

来源:NCMMSC 2023论文|基于秩的轻量级声纹模型剪枝量化 (qq.com)

你可能感兴趣的:(语音识别,剪枝,算法,机器学习,语音识别)