VALSE笔记 :深度神经网络加速与压缩

模型加速与分类方法

  • Low-Rank
  • Pruning
  • Quantization
  • Knowledge Distillation
  • Compact Network Design

Low-Rank

  • SVD
  • CP Decomposition
  • Tucker decomposition
  • Tensor Train Decomposition
  • Block Term Decomposition

深度网络加速和压缩的第一种方法是Low-Rank低秩分解。由于卷积神经网络中的主要计算量在于卷积计算,而卷积计算本质上是矩阵分析的问题,通过在大学对矩阵分析、高等数学的学习我们知道通过SVD奇异值分解等矩阵分析方法可以有效减少矩阵运算的计算量。对于二维矩阵运算来说SVD是非常好的简化方法,所以在早期的时候,微软研究院就做过相关的工作来对网络实现加速。后面对于高维矩阵的运算往往会涉及到Tensor分解方法来做加速和压缩,主要是CP分解、Tucker分解、Tensor Train分解和Block Term分解这些在2015年和2016年所做的工作。
应该说矩阵分解方法经过过去的发展已经非常成熟了,所以在2017、2018年的工作就只有Tensor Ring和Block Term分解在RNN的应用两篇相关文章了。那么为什么Low-Rank不再流行了呢?除了刚才提及的分解方法显而易见、比较容易实现之外,另外一个比较重要的原因是现在越来越多网络中采用1×1的卷积,而这种小的卷积使用矩阵分解的方法很难实现网络加速和压缩。

Pruning

  • Structured Pruning
  • Filter Pruning
  • Gradient Pruning
  • Fine-grainded Pruning in a Bayesian View

深度网络加速和压缩的第二种方法是Pruning,简单来说就是把神经网络中的连接剪掉,剪掉以后整个网络复杂度特别是网络模型大小要减小很多。最早在ICLR2016上斯坦福大学提出了一种称为Deep Compression的随机剪枝方法。由于随机剪枝方法对硬件非常不友好,往往在硬件实现的过程中不一定能够很好地对网络起到加速和压缩的效果。后来大家就想到使用成块出现的结构化PruningFilter Pruning梯度Pruning等方法。
对于结构化Pruning,在ICML2017中有一篇对于权重进行分析剪枝的文章。具体方法是:首先使用Group Sparsity组稀疏的方法对分组特征添加稀疏正则来修剪掉权重矩阵的一些列,然后通过Exclusive Sparsity增强不同权重之间特征的竞争力来学习更有效的filters,两者共同作用取得了很好的Pruning结果。
从另一方面考虑,我们能否对feature map和activation也做一些pruning的工作呢?在ICCV2017的工作中有人通过给每个通道channel添加一个尺度因子scaling factor然后对这些尺度因子scaling factor添加sparsity regularization最后根据尺度因子大小对相应的通道channels进行修剪,将一些尺度因子比较小的通道剪掉,实现对整个网络的瘦身效果。
刚才所讲的都是在网络前向传播过程中所做的Pruning,那么我们能否在网络训练的过程中也加入Pruning来加快网络训练的过程呢?ICML2017有一篇文章对网络训练过程中的梯度信息做了分析,通过去掉幅值比较小的梯度来简化网络的反向传播过程,从而加快网络的训练过程。从结果来看,这种方法可以通过仅仅更新1%-4%的权重来实现和原有网络相当的效果

Quantization

  • Low-bit Quantization
  • Quantization for general training acceleration
  • Gradient Quantization for distributed training

除了Pruning,还有一种研究较多的方法是Quantization量化。量化可以分为Low-Bit Quantization(低比特量化)Quantization for General Training Acceleration(总体训练加速量化)和Gradient Quantization for Distributed Training(分布式训练梯度量化)
由于在量化、特别是低比特量化实现过程中,由于量化函数的不连续性,在计算梯度的时候会产生一定的困难。对此,阿里巴巴冷聪等人把低比特量化转化成ADMM可优化的目标函数,从而由ADMM来优化。另一种是使用哈希把二值权重量化,再通过哈希求解。
前面两篇文章都是对权重进行量化,那么feature map能否也可以进行量化呢?以前有人考虑过这个问题,将权重和feature map一起进行量化,但在实际过程中非常难以收敛。CVPR2018上有一个方法,受到两步哈希法的启发,将量化分为两步,第一步先对feature map进行量化,第二步再对权重量化,从而能够将两个同时进行很好的量化。
刚才的量化都是在网络inference过程中,其实量化也可以在训练过程中使用,这是英特尔在NIPS2017提出的Flexpoint方法。我们知道在32位浮点和16位浮点存储的时候,第一位是符号位,中间是指数位,后面是尾数。他们对此提出了把前面的指数项共享的方法,这样可以把浮点运算转化为尾数的整数定点运算,从而加速网络训练。
在很多深度学习训练过程中,为了让训练更快往往会用到分布式计算。在分布式计算过程中有一个很大问题,每一个分布式服务器都和中心服务器节点有大量的梯度信息传输过程,从而造成带宽限制。这篇文章采取把要传输的梯度信息量化为三值的方法来有效加速分布式计算。

Knowledge Distillation

  • “A Gift From Knowledge Distillation: Fast Optimization, Network Minimization and Transfer Learning”. CVPR2017
  • “Pay More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer “. ICIR2017
  • “Learn Efficient Object Detection Models with Knowledge Distillation”. NIPS2017

Compact Network Design

  • “MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications”. CVPR2017
  • “Inverted Residuals and Linear Bottlenecks: Mobile Networks for Classification, Detection and Segmentation “. CVPR2018
  • “ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices”. CVPR2018

先介绍谷歌在2017年和2018年连续推出的MobileNets V1和MobileNets V2,其中使用了depthwise的1x1卷积。MobileNets V1是一个在网络非常精简情况下比较高性能的网络,MobileNets V2开始于通道比较少的1×1的网络,然后映射到通道比较多的层,随后做一个depthwise,最后再通过1x1卷积将它映射回去,这样可以大幅减少1×1卷积计算量。
实际上MobileNets中1x1的卷积占有很大的比重,基于这样的原则,旷视科技在CVPR2018提出把1×1的卷积通过分组来减少计算的方法,由于分组以后存在不同通道之间信息交流非常少的问题,他们又在卷积层之间增加channel shuffle过程进行随机扰乱,增加了不同通道之间的信息交流。这是ShuffleNet所做的工作。

最后简单讲一下深度神经网络加速和压缩的发展趋势。第一,我们发现实际上现在绝大部分加速和压缩的方法,都需要有一个fine-tuning的过程,这个过程需要有一定量的含有标签的原始训练样本,这在实际应用过程中可能会有一定的限制。会有一些Non-fine-tuning或者Unsupervised Compression方法的出现。实际上现在已经有人在研究这方面的东西。第二,在加速和压缩过程中会涉及到很多参数,甚至还包含很多经验性东西,将来能不能做到尽可能少需要、不需要经验或者参数越少越好的self-adaptive方法。第三,现在很多加速压缩方法往往都是针对分类问题,未来在目标检测、语义分割方面也会出现类似的工作。第四,现在很多方法与硬件的结合越来越紧密,对于加速和压缩方面来说也是如此,未来肯定是之间的结合越来越多。最后是二值网络越来越成熟,未来研究的人会越来越多。

参考:让机器“删繁就简”:深度神经网络加速与压缩|VALSE2018之六
参考文献下载链接
密码:k1T5

你可能感兴趣的:(VALSE笔记 :深度神经网络加速与压缩)