月臻

ShuffleNet模型解读

原文链接：：https://arxiv.org/abs/1707.01083

Abstract

论文提出了一种计算效率极高的卷积神经网络结构——ShuffleNet，它是专门为计算能力有限的移动平台设计的。这个新结构用来两个新操作——逐渐群卷积(pointwise group convulution)和通道混洗(channel shuffle)在保障精确率损失不大的同时大大减少了计算成本。基于ImageNet数据集的分类任务和MS COCO的目标检测任务上ShuffleNet都表现出了优于其他结构的性能，如 top-1 error 仅为7.8%，超越了之前MobileNet在ImageNet分类为任务的表现。

1. Introduction

为了解决主要的视觉识别任务，构建更深更大的卷积神经网络是一个基本的趋势，大多数准确率高的卷积神经网络通常都有上百层和上千个通道，需要数十亿的 FLOPS。这篇报告走的是另一个极端，在只有几十或者几百 FLOPS 的计算资源预算下，追求最佳的精度，目前的研究主要集中在剪枝、压缩和量化上。在这里我们要探索的是根据我们的计算资源设计一种高效的基本网络架构。

我们注意到最先进的网络结构(比如Xception和ResNeXt)中由于大量 1 x 1 卷积核耗费了过多计算资源，使得这种结构在小型网络中会变得效率很低。我们的目的是使用逐点群卷积来减小 1x1 卷积的计算复杂度，同时为了克服群卷积带来的副作用，我们提出了通道清洗来帮助信息流通。基于这两种技术，我们构建了一种叫做ShuffleNet的高效架构，在给定计算复杂度预算下，相比于其他流行的架构，我们的ShuffleNet允许使用更多的特征通道，这有助于编码更多的信息，尤其是对小型网络的表现这一点至关重要。

我们在ImageNet分类任务和MS COCO目标检测任务上评估了我们的模型，一系列可控制的实验都证明我们设计模型的优越性。我们也在一块基于ARM的计算核心上做了真实的硬件加速，ShuffleNet模型于AlexNet相比，在精度降低不大的同时实现了13倍的实际加速。

2. Related Work

2.1 高效模型设计

在过去的很多年里我们已经看到了深度神经网络在计算机视觉领域的巨大成功，其中模型设计扮演了重要的角色。在嵌入式设备上运行高品质模型的需求如日剧增，这也促进了高效模型设计方面的研究。例如，与单纯的堆叠卷积层相比，GoogleNet在增加了网络深度的同时极大地降低了复杂度；SqueezeNet在保持精度的同时大大减少参数和计算量；ResNet利用高效的bottleneck结构实现惊人的效果；SENet介绍了一种结构单元降低了网络的计算成本。于我们的工作同时进行的一项工作是使用强化学习和模型研究来探索高效的模型设计。

2.2 群卷积

群卷积这个概念第一次是出现在用两个GPU运行AlexNet网络时，现在它已经在ResNetXt中展示了其高效性。Xception中提出的深度可分离卷积概括了Inception序列，最近的MobileNet使用深度可分离卷积实现了最先进的结果。我们的工作概括了群卷积和新形式的深度可分离卷积。

2.3 通道清洗操作

据我们所知，在高效模型设计上，先前的工作中很少提到通道清洗操作，尽管CNN cuda-convnet 支持随机稀疏卷积层，这个等价于在随机通道清洗后面跟一组卷积层。这样的随机清洗操作有不同的目的，并且之后很少使用了。直到最近，另一个同时展开的工作也采用了这个想法用于一个两阶段的卷积层，然而它们没有调查通道清洗的有效性和其在小型网络设计上的通途。

2.4 模型加速

这个方向旨在保证预训练模型精确度的同时加速推理。常见的措施有修剪网络连接或通道数减少预训练模型中的冗余连接；量化或因式分解减少计算冗余加速推理；在不修改参数的前提下，通过FFT或者其他方法来优化卷积计算减少时间消耗；知识蒸馏是将在大模型中学到的知识迁移到小模型中使得小模型训练更加容易。

关于这部分的内容我在之前的博客中也有提到：https://blog.csdn.net/h__ang/article/details/88238734

三. Approach

3.1 针对群卷积做通道清洗

现代神经网络经常由多个相同结构的重复块组成。在它们之中，最先进的网络如Xception和ResNeXt在构建块时引入了高效的深度分离卷积和组卷积，使得其在性能和计算成本之间取得了平衡。然而我们注意到两个设计中都未完全采用 1 x 1 的卷积核，因为这需要考虑复杂度的问题。举个例子，在ResNeXt中仅仅对 3x3 的卷积核采用组卷积，因此在ResNeXt中对于每一个残差单元来讲逐点卷积占据了93.4%的计算量。在小型网络中，昂贵的逐点卷积导致有限的通道数满足计算的约束，这往往会损坏模型的精确度。

为了解决这个问题，一个最直接的方法就是应用通道稀疏连接，比如在 1x1 的卷积层上做组卷积，通过确保每个卷积操作仅作用在相应的输入通道上来减少计算成本。然而，如果多个组卷积堆叠在一起，就会产生一个副作用：一个确定通道的输出仅仅取决于输入通道的一部分，下图的(a)展示了两个堆叠组卷积层的情况，很明显一个确定组的输出仅与组内的输入有关，这样的性质阻止了不同通道组之间的信息流通，弱化了信息表达能力。

如果我们允许组卷积获得不同组的输入数据(正如下图(b)所示)，这样的话输入和输出通道将会完全相关了。具体来讲，对于由上个组卷积层产生的feature map，我们将每个组的通道拆分为几个子组，然后将不同子组重新组合送入下一层。

这个过程由一个叫做通道清洗的操作高效而优雅的实现(正如上图©)所示，步骤如下：

有g个组的卷积层进行划分使得输出有 gxn 个通道；(划分为g个组，每个组有n个通道)
feature map reshape为(g, n)；
将维度为(g, n)的feature map转置为(n, g)；
平坦化之后分组送入下一层；(这时到底划分为几个组就取决于下一个组卷积的组数了)

用一组图来更加贴切的说明一下(还是盗别人的图，捂脸)：

而且，通道清洗是可微分的，这意味着模型可以进行 end-to-end 的训练；通道清洗操作使得使用多个组卷积层构建更强大的结构成为可能，下一节中我们将会介绍一种带有通道清洗和组卷积的有效网络单元。

现在换一种思路来理解组卷积，假定输入的维度为 Hin x Win x Din，卷积核的维度为 h x w x Din x Dout，标准卷积的结果就是输出维度为 Hin x Win x Dout，它的每一个元素包含了所有输入通道的信息，因为它使用 h x w x Din 对 Hin x Win x Din 做卷积来得到每一个元素的；在做组卷积时，它是先把 h x w x Din x Dout 的卷积核分为 g 个组，那么每个组的维度为 h x w x (Din / g) x (Dout / g)，这时每个组对应输入的一部分，比如第一个组对应的输入为 Hin x Win x [0: (Din / g)]，第二组对应的输入为 Hin x Win x [(Din / g) : (2Din / g)]，以此类推…，用每个组的卷积核和对应的输入做卷积得到 g 个维度 Hin x Win x (Dout / g) 的输出，拼接在一起得到一个 Hin x Win x Dout 的输出。

其优点：

可以高效地进行训练，卷积倍分成多个路径，每个路径可由不同的GPU分开处理，所以模型可以并行方式在多个GPU上进行训练；
模型更加高效，即模型参数会随着分组数的增大而减少。举个例子，在上面的陈述中标准卷积有 h x w x Din x Dout 个参数。具有 g个分组的组卷积的参数量为 h x w x (Din / g) x (Dout / g) x g = h x w x (Din / g) x Dout，减少了g倍；
分组卷积也许能提供比标准完整 2D 卷积更好的模型，原因和稀疏过滤器的关系有关。

参考文献：https://zhuanlan.zhihu.com/p/57575810

3.2 ShuffleNet单元

我们专门为小型网络提出了一种新颖的ShuffleNet单元，我们从上图(a)开始，这是一个残差块，在主分支的 3x3 卷积层我们使用了深度卷积，接着，我们用 1x1 的组逐点卷积和通道清洗取代第一个1x1卷积层得到图(b)，第二个组逐点卷积的目的是恢复通道维度让其和shortcut匹配上，第二个组卷积后面没有加上通道清洗，除此之外，3x3 深度卷积层后面也没有过ReLU函数了；至于ShuffleNet中应用步长的情况，我们简单地做了两点修正：

在shortcut路径上添加了一个 3x3 的平均池化层；
使用通道拼接代替(b)中的元素相加，在扩大通道的同时增加的计算成本却很少；

多亏了通道清洗和群逐点卷积，在ShuffleNet单元中的所有元素才可以高效地计算。与ResNet和ResNeXt相比，我们的结构在相同的配置下计算复杂度更低。举个例子，给定维度为 c x h x w 的输入，c为输入层的通道数，bottleneck的通道为m：

ResNet单元需要的计算量为 hw(2cm + 9m**2)
ResNeXt单元需要 hw(2cm + 9m**2/g) FLOPS，
ShuffleNet单元仅仅需要 hw(2cm/g + 9m) FLOPS，这里的g是卷积层的分组数。

换句话来讲，在给定计算预算的限制下，ShuffleNet可以使用更宽的特征映射。我们发现这对小型网络很重要，因为小型网络没有足够的通道传递信息。

另外我们还发现了一个问题，ShuffleNet的深度卷积仅仅作用在bottlenet上，这是由于深度卷积虽然理论上的计算复杂度很低，但是与其他密集型卷积相比其计算/存储访问的效率很差。其原因在于两点：

depthwise的卷积核复用率比普通卷积要小很多，内存中的置换率也比普通卷积高；
depthwise的卷积是per channel的，每个卷积的操作矩阵都很小，这麽小的矩阵不容易得到充分并行。

3.3 Network Architexture

基于上面的ShuffleNet单元，我们提出了ShuffleNet的整体结构如下表一：
网络主要由三个阶段的ShuffleNet单元堆叠组成，在每个阶段的第一个组成层的步长都是2，同一个阶段内的其它超参数是保持相同的，下一个阶段的输出通道数相对于上一个阶段翻倍，特征尺寸相对于上一个阶段减半。

在ShuffleNet单元中，组数g控制着逐点卷积连接的稀疏性，表1探索了不同组数的影响，在实验中我们对不同组数采用不同的输出通道数保证整体的计算复杂度基本不变(大约140MFLOPS)。很明显，在给定的计算复杂度约束下较大的组数可以有更多的输出通道数，着帮助我们可以编码很多的信息，然而太多的组数也有可能导致组内信息过少，丢失精度。

为了将网络定制到所需要的复杂度，我们简单地在通道数上应用一个比例因子s，举个例子，我们将表1中的网络定义为"ShuffleNet 1x"，那么"ShuffleNet sx"就是将ShuffleNet 1x中的卷积核的通道数缩减s倍，这将会导致网络的计算复杂度整体缩减s**2倍。

四. Experiments

我们在ImageNet 2012分类数据集上对模型进行了评估，我们遵循了ResNet的大多数训练参数设置，除了两点：

我们将权重衰减率由1e-4改为4e-5；
在数据预处理时使用较少的aggressive scale增强；

这是由于在小模型往往会欠拟合而不是过拟合，我们在4块GPU上花了1-2天对模型进行了 3 x 10**5迭代，batchsize为1024。为了进行基准测试，我们在ImageNet验证集上比较了top-1 的表现，将原来的图片尺寸裁剪为 224 x 224。

4.1 Ablation Study

ShuffleNet的核心观点就在于逐点组卷积和通道清洗，在这个子部分我们对其进行评估。

4.1.1 逐点组卷积
同一行表示的是相同的计算复杂度下，不同组数下的分类错误率，可以看到随着组数g的增大，一般情况下错误率会下降，因为分组越多，意味着可以从更多的通道数中获取信息。但是同时也有例外，当g增大到一定程度时错误率会上升，这是因为组数太多时组内信息过少，丢失精度，总的而言，越小的模型更倾向于需要更大的分组数。

4.1.2 Channel Shuffle vs. No Shuffle

通道清洗的目的是对于多组卷积层进行跨层的信息流动，下表展示了不同ShuffleNet结构下的模型准确率：

4.2 Comparison with Other Structure Units

4.3 Comparison with MobileNets and Other Frameworks

与MobileNets相比：
与其他一些流行架构相比：

4.4 Generalization Ability

table7展示了两种分辨率不同的输入下不同结构的表现：

4.5 Actual Speedup Evaluation

最后，我们在ARM的平台上评估了真实的推理速度，尽管越大的分组数理论上会有更好的表现，但是在实际实施时却没有想象中的效率高，经验认为g=3通常会在准确率和实际推理时间之间取得平衡。由于内存访问和其他的一些开销，理论上4倍的计算复杂度的减少经常只会带来 2.6倍的实际速度的提升。尽管如此，与AlexNet相比，我们的ShuffleNet 0.5x 模型在同一个计算复杂度下依然有13x的速度提升。

参考文章：
[1] https://blog.csdn.net/u011974639/article/details/79200559
[2] Diagonalwise Refactorization: An Efficient Training Method for Depthwise Convolutions

源码链接：https://github.com/MG2033/ShuffleNet

你可能感兴趣的:(轻量级网络架构解读)

集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本