模型压缩之剪枝小综述

## 现在主流的稀疏化方法:
###  非结构化方法
1) han song提出的方法,低于某一阈值的归零,但是这种非结构化的稀疏矩阵现有的库很难处理,需要专门设置。【S. Han, J. Pool, J. Tran, andW. Dally. Learning both weights andconnections for efficient neural network. In NIPS, pages 1135–1143, 2015.】。
Training sparse neural networks也是一种非结构化的方法,用到了gate的方法,同样的方式在其他论文中称为mask或者高级一些应用方式——attention的方式。
### 结构化方法
这种方式得到的稀疏矩阵是非结构化矩阵,接下来的方法都是或基本都是结构化稀疏的方法。
1) group-wise稀疏化,使用group-sparsity regularization【V. LebedevandV. Lempitsky. Fast convnets using group-wise brain damage. In CVPR, pages2554–2564, 2016】。
随机的方式让一些连接失活【S. Changpinyo, M. Sandler, and A. Zhmoginov.The power of sparsity in convolutional neural networks. arXiv preprintarXiv:1702.06257, 2017】
2) 还有module等单位(filter, channel, filter shape and depth structures)的稀疏化,Structured Sparsity Learning (SSL) method。
相类似的处理方式:【Learning Efficient Convolutional Networks throughNetwork Slimming 2017】
3) 神经元的重要性度量:
  •  使用权值的模【H. Li, A. Kadav, I.Durdanovic, H. Samet, and H. P. Graf. Pruning filters for efficient ConvNets.In ICLR, pages 1–13, 2017.】【Dynamic Network Surgery forEfficient DNNs也是如此】;
  • 度量relu之后的结果的稀疏度【H. Hu, R. Peng, Y.W. Tai, and C. K. Tang. Network trimming: Adata-driven neuron pruning approach towards efficient deep architectures. InarXiv preprint arXiv:1607.03250, pages 1–9, 2016】;
  • 近似的求算对loss的影响力度,如使用Talayor expansion泰勒展开【P. Molchanov, S.Tyree, T. Karras, T. Aila, and J. Kautz. Pruning convolutional neural networksfor resource efficient transfer learning. In ICLR, pages 1–17, 2017.】
  • 考虑相邻网络层的给出重要性判别的方法【J.-H. Luo,J. Wu, and W. Lin. Thinet: A filter level pruning method for deep neuralnetwork compression. In The IEEE International Conference on Computer Vision(ICCV), Oct 2017】
  • 计算当前特征相对于剩余特征重要性的方法【G. Roffo,S. Melzi, and M. Cristani. Infinite feature selection. In 2015 IEEEInternational Conference on Computer Vision (ICCV), pages 4202–4210, 2015】 
4) 另一个维度上分析,基于layer层的处理,往往是独立的或是贪婪的方式,较少有全局的考虑,NISP是一种全局的方式,计算压缩后模型表达能力与原有的之间的差异。各种设有正则项的方法也为全局的处理方式。
 

你可能感兴趣的:(深度学习)