Network Slimming——有效的通道剪枝方法(Channel Pruning)

"Learning Efficient Convolutional Networks through Network Slimming"这篇文章提出了一种有效的结构性剪枝方法,即规整的通道剪枝策略:在训练期间,通过对网络BN层的gamma系数施加L1正则约束,使得模型朝着结构性稀疏的方向调整参数。此时BN层的Gamma系数所起的作用,类似于信息流通道的开关系数,控制着信息流通道的开关闭合。完成稀疏训练或者正则化之后,便可以按照既定的压缩比(或剪枝率)裁剪模型,能够生成低存储占用的精简模型、并提升一定的加速比。该方法与其他模型压缩方法(量化、低秩分解)结合使用,可以进一步提高压缩比;与其他优化加速方法(TensorRT等)结合使用,可以提升推理速度;若推理精度损失过大,也可以结合知识蒸馏,有效恢复损失的精度。

Network Slimming——有效的通道剪枝方法(Channel Pruning)_第1张图片

Network Slimming——有效的通道剪枝方法(Channel Pruning)_第2张图片

上图(图1、图2)显示了Network Slimming的基本流程,属于典型的迭代式过程(包含sparse-training、fine-tuning)。在channel-level实施的规整剪枝操作,能够沿输出通道维度裁剪当前层的3D filters,并沿输入通道维度裁剪下一层的2D kernels。最终所生成的精简模型能够直接运行在成熟框架(Pytorch、MXnet或TensorFlow等)或硬件平台上(GPU、FPGA等),无需特殊算法库的支持。另外,在正则化期间,BN层Gamma系数的分布经自动调整、稀疏化之后,有助于网络结构的优化探索,即Network Slimming属于自动剪枝策略。

Network Slimming的total loss设计如下:

在total loss中,除了基本的loss之外,引入了BN层Gamma系数的L1正则约束项,目的是为了诱导BN层的稀疏化。其中L1约束函数g( ) 仅施加于BN层的Gamma系数,因此在反向传播更新梯度时,Gamma系数的导数需要加上 [Gamma系数符号与惩罚系数的乘积项]。L1正则化的Pytorch代码如下:

# additional subgradient descent on the sparsity-induced penalty term
def updateBN(model):
    for n, m in model.named_modules():
        if isinstance(m, nn.BatchNorm2d):
            m.weight.grad.data.add_(args.s*torch.sign(m.weight.data))  # L1

需要注意的是:稀疏化可以通过裸训+L1正则化获得,但需要较长的训练周期;也可以通过fine-tuning+L1正则化获得,此时微调本质是使BN层Gamma系数稀疏化、且尽量不破坏kernel weights的分布,因此微调学习率不应过大、而惩罚系数相对较大,例如initial lr=0.001、lambda=0.001。

针对Resnet等包含BN层的CNN网络,Network Slimming方法在Cifar10、ImageNet2012等数据集上均获得了良好的压缩效果。但是冗余参数主要分布在网络的深层次,因此当压缩比为2倍时,实际加速比通常要小于2。当裁剪后精度损失严重时,该方法可以与知识蒸馏结合使用,通过原复杂模型的诱导训练能够恢复一定的精度。

论文地址:https://arxiv.org/abs/1708.06519

GitHub地址:https://github.com/foolwood/pytorch-slimming

-------- 知识蒸馏相关的讨论可参考:

https://blog.csdn.net/nature553863/article/details/80568658

-------- 模型压缩方面,更为详细的讨论,请参考:

https://blog.csdn.net/nature553863/article/details/81083955

你可能感兴趣的:(深度学习,模型压缩)