模型剪枝的笔记

近年来深度学习模型在计算机视觉、自然语言处理、搜索推荐广告等各种领域,不断刷新传统模型性能,并得到了广泛应用。随着移动端设备计算能力的不断提升,移动端AI落地也成为了可能。相比于服务端,移动端模型的优势有:

  1. 减轻服务端计算压力,并利用云端一体化实现负载均衡。特别是在双11等大促场景,服务端需要部署很多高性能机器,才能应对用户流量洪峰。平时用户访问又没那么集中,存在巨大的流量不均衡问题。直接将模型部署到移动端,并在置信度较高情况下直接返回结果,而不需要请求服务端,可以大大节省服务端计算资源。同时在大促期间降低置信度阈值,平时又调高,可以充分实现云端一体负载均衡。
  2. 实时性好,响应速度快。在feed流推荐和物体实时检测等场景,需要根据用户数据的变化,进行实时计算推理。如果是采用服务端方案,则响应速度得不到保障,且易造成请求过于密集的问题。利用端计算能力,则可以实现实时计算。
  3. 稳定性高,可靠性好。在断网或者弱网情况下,请求服务端会出现失败。而采用端计算,则不会出现这种情况。在无人车和自动驾驶等可靠性要求很高的场景下,这一点尤为关键,可以保证在隧道、山区等场景下仍能稳定运行。
  4. 安全性高,用户隐私保护好。由于直接在端上做推理,不需要将用户数据传输到服务端,免去了网络通信中用户隐私泄露风险,也规避了服务端隐私泄露问题

移动端部署深度学习模型也有很大的挑战。主要表现在,移动端等嵌入式设备,在计算能力、存储资源、电池电量等方面均是受限的。故移动端模型必须满足模型尺寸小、计算复杂度低、电池耗电量低、下发更新部署灵活等条件。因此模型压缩和加速就成为了目前移动端AI的一个热门话题。模型压缩和加速不仅仅可以提升移动端模型性能,在服务端也可以大大加快推理响应速度,并减少服务器资源消耗,大大降低成本。结合移动端AI模型和服务端模型,实现云端一体化,是目前越来越广泛采用的方案。

模型压缩和加速是两个不同的话题,有时候压缩并不一定能带来加速的效果,有时候又是相辅相成的。压缩重点在于减少网络参数量,加速则侧重在降低计算复杂度、提升并行能力等。模型压缩和加速可以从多个角度来优化。总体来看,个人认为主要分为三个层次:

  1. 算法层压缩加速。这个维度主要在算法应用层,也是大多数算法工程师的工作范畴。主要包括结构优化(如矩阵分解、分组卷积、小卷积核等)、量化与定点化、模型剪枝、模型蒸馏等。
  2. 框架层加速。这个维度主要在算法框架层,比如tf-lite、NCNN、MNN等。主要包括编译优化、缓存优化、稀疏存储和计算、NEON指令应用、算子优化等
  3. 硬件层加速。这个维度主要在AI硬件芯片层,目前有GPU、FPGA、ASIC等多种方案,各种TPU、NPU就是ASIC这种方案,通过专门为深度学习进行芯片定制,大大加速模型运行速度。

下面也会分算法层、框架层和硬件层三个方面进行介绍。

为什么剪枝论文只对比分类任务

  • 大尺寸图片的输入计算
  • 模型足够深
  • 模型足够广泛出名
  • 任务比较简单
  • 全连接层非零较少,效果好

论文集-剪枝github

  • https://github.com/he-y/Awesome-Pruninghttps://github.com/he-y/Awesome-Pruning
  • 模型压缩总览 - 简书深度学习使得很多计算机视觉任务的性能达到了一个前所未有的高度。不过,复杂的模型固然具有更好的性能,但是高额的存储空间、计算资源消耗是使其难以有效的应用在各硬件平台上的重要原因...https://www.jianshu.com/p/e73851f32c9f

 课题组

Yang HE

University of Technology Sydney 悉尼科技大学

学生

Yang He

导师

Yi Yang

Research Scientist, Google Brain

Jiahui Yu

来自 <谷粉学术>

领英

LinkedIn Login, Sign in | LinkedIn

个人主页

Jiahui Yu - Google Brain

博士导师实验室

IFP Group at UIUC. - Home

代码实现

【杂谈】当前模型剪枝有哪些可用的开源工具?

模型剪枝属于模型优化中的重要技术之一,经过了研究人员多年的研究,工业界也开始有一些实践,那么当前有哪些可用的模型剪枝工具呢?


 

作者&编辑 | 言有三

Prune部分源码阅读分析TORCH.NN.UTILS.PRUNE

剪枝mask去除方法:

看prune部分源码

  1. 最后判断卷积核为全0=sum(),最后一起删除层结构
  2. 为零的权重设置require grad为false

参考论文 Liu, Zhuang; Li, Jianguo; Shen, Zhiqiang; Huang, Gao; Yan, Shoumeng; Zhang, Changshui (2017): Learning Efficient Convolutional Networks through Network Slimming. In : 2017 IEEE International Conference on Computer Vision (ICCV).的实现代码中提及用mask先标注需要去除的部分,最后一起移除

保存剪枝后的模型结构如何再次加载?

保存剪枝后的模型结构如何再次加载?

通过mask的方式不是真正的剪枝模型

参考论文代码/库distiller

Redirecting to https://intellabs.github.io/distiller/

剪枝的大只过程:

  1.     根据用户选择的剪枝API生成对应的策略实例,此时会判断需要做剪枝操作的module上是否已经挂有前向回调函数,没有则生成新的,有了就在老的上面添加,并且生成PruningContainer。从这里可以看出,对于同一个module使用多个剪枝策略时,pytorch通过PruningContainer来对剪枝策略进行管理。PruningContainer本身也是继承自BasePruningMethod。同时设置前向计算的回调,便于后续训练时调用。
  2.     接着根据用户输入的module和name,找到对应的参数tensor。如果是第一次剪枝,那么需要生成_orig结尾的tensor,然后删除原始的module上的tensor。如name为bias,那么生成bias_orig存起来,然后删除module.bias属性。
  3.     获取defaultmask,然后调用method.computemask生成当前策略的mask值。生成的mask会被存在特定的缓存module.register_buffer(name + "_mask", mask)。这里的compute_mask可能是两种情况:如果只有一个策略,那么调用的时候对应剪枝策略的compute_mask方法,如果一个module有多个剪枝策略组合,那么调用的应该是PruningContainer的compute_mask file

模型剪枝的笔记_第1张图片

  1.     执行剪枝,保存剪枝结果到module的属性,注册训练时的剪枝回调函数,剪枝完成。新的mask应用在orig的tensor上面生成新的tensor保存的对应的name属性 file

模型剪枝的笔记_第2张图片

  1. remove接口 pytorch还提供各类一个remove接口,目的是把之前的剪枝结果持久化,具体操作就是删除之前生成的跟剪枝相关的缓存或者是回调hook接口,设置被剪枝的name参数(如bias)为最后一次训练的值。 file

模型剪枝的笔记_第3张图片

自己写一个剪枝策略接口也是可以的: file

    先写一个剪枝策略类继承BasePruningMethod

    然后重载基类的compute_mask方法,写自己的计算mask方法

模型剪枝的笔记_第4张图片

你可能感兴趣的:(备份,剪枝,算法)