just_sort

ICCV 2017 Learning Efficient Convolutional Networks through Network Slimming（模型剪枝）

前言

这篇文章是ICCV 2017的一篇模型压缩论文，题目为《
Learning Efficient Convolutional Networks through Network Slimming》。2019年有相当多的关于YOLOv3的剪枝开源工程，他们大多数的原理都来自于这篇论文，这篇论文的思想值得仔细品读。论文原文地址和Pytorch开源代码地址见附录。

基础原理

这篇文章不同于之前介绍的那篇深度学习算法优化系列一 | ICLR 2017《Pruning Filters for Efficient ConvNets》
论文直接对卷积层的权重进行剪枝。而是提出了一个针对BN层的剪枝方法，论文利用BN层的权重(也就是BN层的缩放系数)来评估输入通道的重要程度(score)，然后对score低于阈值(threshold)的通道进行过滤，之后在连接成剪枝后的网络时已经过滤的通道的神经元就不参与连接。

具体方法

论文提供了一种简单的方法来执行通道剪枝。这一节首先讨论channel-wise稀疏化的优势和运到的挑战，然后介绍利用BN的缩放系数来高效的鉴别和剪枝不重要的通道。

channel-wise稀疏化

稀疏化可以在不同的级别识别，即weight-level，kernel-level,layer-level。weight-level的稀疏化有最高的灵活性和泛化性能，也可以获得更高的压缩比例，但它通常需要特殊的软硬件加速器才能在稀疏模型上快速推理。而layer-level稀疏化不需要特殊的包做推理加速，但是它灵活性上不如weight-level稀疏化。事实上，只有深度够深(超过50层)，移除某些层才会很高效。相比之下,channel-wise稀疏化在灵活性和实现上做了一个平衡，它可以被应用到任何经典的CNN或者全连接层(把每一个神经元看成一个通道)，由此得到的网络本质上也是一个瘦的网络，可以获得推理速度的提升。

挑战

实现通道稀疏化需要将和一个通道有关联的所有输入和输出的连接都剪掉，但是对于已经预训练好的模型来说，不太可能做到这一点。因此这个对已经预训练好的模型做通道剪枝效率不高，比如对预训练好的ResNet做通道剪枝，在不损伤准确率的情况下，只能减少10%的参数量。"Learning structured sparsity in deep neural networks"这项工作通过将稀疏正则化强加到训练目标函数中，具体来讲就是采用group LASSO来是的所有卷积核的同一个通道在训练时同时趋近于0。然而，这个方法需要额外计算新引入的和所有卷积核有关的梯度项，这加重了网络的训练负担。

缩放因子和稀疏性惩罚

论文的想法是对于每一个通道都引入一个缩放因子 $\gamma$ ，然后和通道的输出相乘。接着联合训练网络权重和这些缩放因子，最后将小缩放因子的通道直接移除，微调剪枝后的网络，特别地，目标函数被定义为：
其中 $(x, y)$ 代表训练数据和标签， $W$ 是网络的可训练参数，第一项是CNN的训练损失函数。 $g (.)$ 是在缩放因子上的乘法项， $\lambda$ 是两项的平衡因子。论文的实验过程中选择 $g (s) = ∣ s ∣$ ，即 $L 1$ 正则化，这也被广泛的应用于稀疏化。次梯度下降法作为不平滑(不可导)的L1惩罚项的优化方法，另一个建议是使用平滑的L1正则项取代L1惩罚项，尽量避免在不平滑的点使用次梯度。

剪掉一个通道的本质是剪掉所有和这个通道相关的输入和输出连接关系，然后获得一个窄的网络，而不需要借助特殊的计算软硬件。缩放因子的作用是通道选择，因为这里是将缩放因子的正则项和权重损失函数联合优化，网络可以自动鉴别不重要的通道，然后移除掉，几乎不损失精度。

利用BN层的缩放因子

BN层已经被大多数现代CNN广泛采用，做为一种标准的方法来加速网络收敛并获得更好的泛化性能。BN归一化激活值的方法给了作者设计一种简单高效的方法的灵感，即与channel-wise缩放因子的结合。尤其是，BN层使用mini-batch的统计特性对内部激活值归一化。 $z_{in}$ 和 $z_{out}$ 分别是BN层的输入和输出，B指代现在的minibatch，BN层执行下面的转换：
通常的做法就是在卷积层之后插入一个BN层，引入channel-wise的缩放/平移参数。因此，论文直接将BN层的 $\gamma$ 参数作为我们网络瘦身的缩放因子，这样做的又是在于没有给网络带来额外的开销。事实上，这也可能是我们能够学习到的最有意义的做通道剪枝的缩放因子，因为1）如果我们不使用BN层，而在卷积层之后加入一个缩放层，缩放因子的值对于评估一个通道的重要性没有任何意义，因为卷积层和缩放层就是一种线性变换而已。我们可以通过一方面降低缩放因子的值一方面方法卷积层的权重来使最终的结果保持不变；2）如果我们在BN层之前插入一个缩放层，缩放层的影响将完全被BN层所掩盖；3）如果在BN层之后插入一个缩放层，那么对于每个通道将会有两个连续的缩放因子。

通道剪枝和微调

引入了缩放因子正则化后，训练出来的模型许多缩放因子都会趋近于0，如Figure1所示。具体来说，假设经过卷积层之后的特征图维度为 $h\times w \times c$ ，其中 $h$ 和 $w$ 分别代表特征图的长宽， $c$ 代表特征图的通道数，将其送入BN层会得到归一化后的特征题意，特征图中的每一个通道都对应一组 $\gamma$ 和 $\lambda$ ，前面说的剪掉小的 $\gamma$ 对应的通道实际上就是直接剪掉这个特征图对应的卷积核。至于什么样的 $\gamma$ 算小呢？这个取决于我们为整个网络所有层设置的一个全局阈值，它被定义为所有缩放因子值的一个比例，例如我们要剪掉整个网络中70%的通道，那么我们先对缩放因子的绝对值排个序，然后取从小到大排序的缩放因子中70%的位置的缩放因子为阈值。这样我们最终就可以得到一个参数较少，运行时内存小，紧凑的CNN模型了。

Muti-Pass

论文提出可以将剪枝方法从单阶段的学习扩展到多阶段，也即是对网络进行多次剪枝，这样可以得到一个压缩程度更高的模型。

跨层连接和预激活结构怎么处理

上面的方法可以直接用到大多数比较简单的CNN结构，如AlexNet，VGGNet等。但对于有跨层连接和预激活设计的网络如ResNet、DenseNet等，应该如何使用这个方法呢？对于这些网络，每一层的输出会作为后续多个层的输入，且其BN层是在卷积层之前，在这种情况下，稀疏化是在层的输入末端得到的，一个层选择性的接受所有通道的子集去做下一步的卷积运算。为了在测试时节省参数和运行时间，需要放置一个通道选择层鉴别出重要的通道。这个地方暂时没理解不要紧，我后面会分析源码，看到代码就懂了。

实验

论文分别在CIFAR、SVHN、ImageNet、MNIST数据上做了测试，训练和测试一些细节如下：

使用SGD算法从头开始训练网络。
在CIFAR和SVHN数据集上，minibatch为64，epochs分别为160和20，初始的学习率为0.1，在训练迭代次数的50%和75%时均缩小10倍。
在ImageNet和MNIST数据集上，训练的迭代次数epochs分别为60和30，minibatch为256，初始学习率为0.1，在训练迭代次数的1/3和2/3时缩小10倍。
权重衰减率为 $10^{-4}$ ，所有的实验中通道缩放因子都初始化为0.5。
超参数 $\lambda$ 依靠网络搜索得到，常见的范围是 $10^{-3}$ ， $10^{-4}$ ， $10^{-5}$ 。对于VGG16选择 $\lambda$ 为 $10^{-3}$ ，对于ResNet和DenseNet，选择 $\lambda$ 为 $10^{-5}$ ，对于ImageNet上的 $V G G - A$ ，选择 $\lambda$ 为 $10^{-5}$ 。
剪枝之后获得了一个更窄更紧凑的模型，接下来便是微调，在CIFAR、SVHN、MNIST数据集上，微调使用和训练相同的优化设置；在ImageNet数据集上，由于时间的限制，我们仅对剪枝后的VGG-A使用 $10^{-3}$ 的学习率学习 $5$ 个epochs。

CIFAR和SVHN上的结果

参数量和FLOPs

在ImageNet和MNIST上的结果

Muti-Pass结果

分析

在网络剪枝中有2个关键的超参数，第一个是百分比 $t$ 和稀疏正则项系数 $\gamma$ ，它们对模型剪枝的影响如下。

剪枝百分比的影响： $t$ 设置的过小，节省的资源会很有限，设置的过大，剪掉太多的通道会给准确率带来永久性损伤，无法通过后续的微调恢复.Figure5展示了在CIFAR-10上训练的DenseNet-40模型， $\gamma=10^{-5}$ 。

通道稀疏正则化的影响。Figure4展示的是不同 $\gamma$ 取值下，缩放因子值的分布情况。可以看到当 $\gamma=10^{-4}$ 时，几乎所有的缩放因子值都掉到了一个接近零的区域，这个过程中可以看成是一种类似于网络中间层的选择过程，只有不可忽视的缩放因子对应的通道才会被选择。

然后论文进一步通过热力图对这个过程可视化，Figure6展示了VGGNet的某一层缩放因子的幅值随着迭代次数的变化情况，每个通道开始的权重相同，缩放因子值也相同，随着训练的进行，一些通道的缩放因子会逐渐变大(深色)，一些通道的缩放因子会逐渐变小(浅色)。

结论

这篇文章提出利用BN层的缩放系数来进行剪枝，在多个大型数据集和多个大型网络的测试结果说明了这个方法的有效性。这个方法可以在丝毫不损失精度的条件下将分类中的SOTA网络如VGG16，DenseNet，ResNet剪掉20倍以上的参数，是这两天多数剪枝算法的奠基石。后面会继续更新这个算法的一些源码解析。

附录

论文原文：https://arxiv.org/pdf/1708.06519.pdf

Pytorch源码：https://github.com/Eric-mingjie/network-slimming

欢迎关注我的微信公众号GiantPandaCV，期待和你一起交流机器学习，深度学习，图像算法，优化技术，比赛及日常生活等。

你可能感兴趣的:(深度学习论文阅读及算法详解)

安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {