「Deep Learning」Note on Rethinking the Value of Network Pruning

Sina Weibo:小锋子Shawn
Tencent E-mail:[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/83316702

打脸文

作者:Zhuang Liu, Mingjie Sun, Tinghui Zhou, Gao Huang, Trevor Darrell
单位:University of California Berkeley, Tsinghua University

4 实验

4.1 预设目标结构

L 1 L_1 L1-norm based Channel Pruning[2] 该方法在每一层,剪枝一定百分比的通道。由论文表1可知,Scratch-E用相同epochs训练剪枝过模型,与微调这样的剪枝过模型,在CIFAR-10和ImageNet上,前者的准确率与后者的可比,另外,Scratch-B用相同计算预算训练剪枝过模型,几乎全面碾压微调和Scratch-E(5/6)。

ThiNet[3] 该方法贪婪剪枝那些对下一层激活值影响最小的通道。Scratch-B在VGG-16和ResNet-50上,大获全胜(6/6)。

Regression based Feature Reconstruction[4] 该方法类似ThiNet,但是剪枝标准是最小化下一层特征图重建误差。所使用的优化方法为LASSO回归。Scratch-B在VGG-16和ResNet-50上,大获全胜(2/2)。

总结起来就是,如果有预设目标网络结构(指剪枝过的结构),那么重新训练(Scratch-E或Scratch-B)获得更好的结果,而不是采用微调。

4.2 自动挖掘目标结构

Network Slimming[5] 该方法在训练时,在BN层上的逐通道scaling因子上强加 L 1 L_1 L1稀疏性,剪枝较小scaling因子的通道。Scratch-B在VGG-19、PreResNet-164、DenseNet-40和VGG-11上,大获全胜(8/10)。

Sparse Structure Selection[6] 该方法是Network Slimmin的推广。Scratch-B大获全胜(3/3)。

Non-structured Weight Pruning[7] 该方法剪枝独立的具有较小值的权重。Scratch-B在ImageNet上比不过微调方法。

4.3 物体检测和迁移学习

由论文表7可知,学习方法比微调方法好。

5 通过结构所搜进行网络剪枝

剪枝结构的参数高效性
剪枝结构的可泛化设计原则

[1] Rethinking the Value of Network Pruning ICLR 2019 [paper] [Pytorch code]
[2] Pruning Filters for Efficient ConvNets ICLR 2017 [paper]
[3] ThiNet: A Filter Level Pruning Method for Deep Neural Network Compression ICCV 2017 [paper]
[4] Channel Pruning for Accelerating Very Deep Neural Networks ICCV 2017 [paper]
[5] Learning Efficient Convolutional Networks through Network Slimming ICCV 2017 [paper]
[6] Data-driven Sparse Structure Selection for Deep Neural Networks ECCV 2018 [paper]
[7] Learning both Weights and Connections for Efficient Neural Network NIPS 2015 [paper]

你可能感兴趣的:(「Deep Learning」Note on Rethinking the Value of Network Pruning)