深度学习模型压缩与加速技术(七):混合方式

目录

      • 总结
      • 混合方式
        • 定义
        • 特点
        • 1.组合参数剪枝和参数量化
        • 2.组合参数剪枝和参数共享
        • 3.组合参数量化和知识蒸馏
      • 参考文献

深度学习模型的压缩和加速是指利用神经网络参数的冗余性和网络结构的冗余性精简模型,在不影响任务完成度的情况下,得到参数量更少、结构更精简的模型。被压缩后的模型计算资源需求和内存需求更小,相比原始模型能够满足更加广泛的应用需求。在深度学习技术日益火爆的背景下,对深度学习模型强烈的应用需求使得人们对内存占用少、计算资源要求低、同时依旧保证相当高的正确率的“小模型”格外关注。利用神经网络的冗余性进行深度学习的模型压缩和加速引起了学术界和工业界的广泛兴趣,各种工作也层出不穷。

本文参考2021发表在软件学报上的《深度学习模型压缩与加速综述》进行了总结和学习。

相关链接:

深度学习模型压缩与加速技术(一):参数剪枝

深度学习模型压缩与加速技术(二):参数量化

深度学习模型压缩与加速技术(三):低秩分解

深度学习模型压缩与加速技术(四):参数共享

深度学习模型压缩与加速技术(五):紧凑网络

深度学习模型压缩与加速技术(六):知识蒸馏

深度学习模型压缩与加速技术(七):混合方式

总结

模型压缩与加速技术 描述
参数剪枝(A) 设计关于参数重要性的评价准则,基于该准则判断网络参数的重要程度,删除冗余参数
参数量化(A) 将网络参数从 32 位全精度浮点数量化到更低位数
低秩分解(A) 将高维参数向量降维分解为稀疏的低维向量
参数共享(A) 利用结构化矩阵或聚类方法映射网络内部参数
紧凑网络(B) 从卷积核、特殊层和网络结构3个级别设计新型轻量网络
知识蒸馏(B) 将较大的教师模型的信息提炼到较小的学生模型
混合方式(A+B) 前几种方法的结合

A:压缩参数 B:压缩结构

混合方式

定义

常用模型压缩与加速技术的组合,就是混合方式。

特点

混合方式能够综合各类压缩与加速方法的优势,进一步加强了压缩与加速效果,将会是未来在深度学习模型压缩与加速领域的重要研究方向。

1.组合参数剪枝和参数量化

  • Ullrich 等人[165]基于 Soft weight sharing 的正则化项,在模型再训练过程中实现了参数量化和参数剪枝。
  • Tung 等人[166]提出了参数剪枝和参数量化的一体化压缩与加速框架 Compression learning by in parallel pruning-quantization(CLIP-Q)。
  • Han 等人[167]提出了 Deep compression,将参数剪枝、参数量化和哈夫曼编码相结合,达到了很好的压缩效果;并在其基础上考虑到软/硬件的协同压缩设计,提出了 Efficient inference engine(Eie)框架[168]。
  • Dubey 等人[169]同样利用这 3 种方法的组合进行网络压缩。

2.组合参数剪枝和参数共享

  • Louizos 等人[170]采用贝叶斯原理,通过先验分布引入稀疏性对网络进行剪枝,使用后验不确定性确定最优的定点精度来编码权重。
  • Ji 等人[171]通过重新排序输入/输出维度进行剪枝,并将具有小值的不规则分布权重聚类到结构化组中,实现更好的硬件利用率和更高的稀疏性。
  • Zhang 等人[172]不仅采用正则化器鼓励稀疏性,同时也学习哪些参数组应共享一个公共值以显式地识别出高度相关的神经元。

3.组合参数量化和知识蒸馏

  • Polino 等人[173]提出了加入知识蒸馏 loss 的量化训练方法,有浮点模型和量化模型,用量化模型计算前向loss,并对其计算梯度,用以更新浮点模型。每次前向计算之前,用更新的浮点模型更新量化模型。
  • Mishra 等人[174]提出用高精度教师模型指导低精度学生模型的训练,有 3 种思路:教师模型和量化后的学生模型联合训练;预训练的教师模型指导量化的学生模型从头开始训练;教师模型和学生模型都进行了预训练,但学生模型已经量化,之后在教师模型的指导下再进行微调。

参考文献

主要参考:高晗,田育龙,许封元,仲盛.深度学习模型压缩与加速综述[J].软件学报,2021,32(01):68-92.DOI:10.13328/j.cnki.jos.006096.

[165] Ullrich K, Meeds E, Welling M. Soft weight-sharing for neural network compression. arXiv Preprint arXiv: 1702.04008, 2017.

[166] Tung F, Mori G. Clip-q: Deep network compression learning by in-parallel pruning-quantization. In: Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition. 2018. 78737882.

[167] Han S, Mao H, Dally WJ. Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding. arXiv Preprint arXiv: 1510.00149, 2015.

[168] Han S, Liu X, Mao H, et al. EIE: Efficient inference engine on compressed deep neural network. ACM SIGARCH Computer Architecture News, 2016,44(3):243254.

[169] Dubey A, Chatterjee M, Ahuja N. Coreset-based neural network compression. In: Proc. of the European Conf. on Computer Vision (ECCV). 2018. 454470.

[170] Louizos C, Ullrich K, Welling M. Bayesian compression for deep learning. In: Advances in Neural Information Processing Systems.\2017. 32883298.

[171] Ji Y, Liang L, Deng L, et al. TETRIS: Tile-matching the tremendous irregular sparsity. In: Advances in Neural Information Processing Systems. 2018. 41154125.

[172] Zhang D, Wang H, Figueiredo M, et al. Learning to share: Simultaneous parameter tying and sparsification in deep learning. In: Proc. of the 6th Int’l Conf. on Learning Representations. 2018.

[173] Polino A, Pascanu R, Alistarh D. Model compression via distillation and quantization. arXiv Preprint arXiv: 1802.05668, 2018.

[174] Mishra A, Marr D. Apprentice: Using knowledge distillation techniques to improve low-precision network accuracy. arXiv Preprint arXiv: 1711.05852, 2017.

你可能感兴趣的:(模型压缩与加速,论文学习总结,深度学习,人工智能)