月臻

ShuffleNet_v2模型解读

论文链接：https://pan.baidu.com/s/1so7aD3hLKO-0PB8h4HWliw

Abstract

目前，神经网络结构大多数都是以计算复杂度(FLOPS)作为间接度量标准来指导设计的，然而，实际上一个网络模型的训练或推理过程Flops等计算复杂度也只是其影响其整体效率的一个因素，其它像内存读写/外部数据IO操作、平台特性等都会对整体的实际运行效率产生影响。为实际生产考虑，我们不应只限于去片面追求理论Flops的减少，更应该去看所设计的网络实际部署在不同类型芯片上时却具有的实际时间消耗。基于一系列可控实验，我们的工作对于高效网络设计提出了几个实用的建议，由此一个新结构ShuffleNet V2就诞生了，同时我们通过实验也证明了我们的模型在速度和准确率之间取得了很好的平衡。

1. Introduction

在神经网络设计过程中，除了精度，计算复杂度是另一个很重要的因素。真实世界的任务往往都是在一个计算力预算下追求最好的精确度，这刺激了一系列在模型精确度和更好的速度间取得平衡的工作，组卷积和深度卷积在其中发挥了重要的作用。

为了衡量计算复杂度，一个广泛使用的度量标准是浮点运算的次数-FLOPS，然而FLOPS是一个间接的指标，它通常和我们真正关心的直接度量标准(比如速度或延迟)并不完全等价，在以前的很多工作中都已经注意到了这点，举个例子，MobileNet v2 和 NASNET-A 的计算复杂度相近，但是MobileNet v2要比NASNET-A快很多，这种现象如Figure1中©和(d)所示，相近计算复杂度的网络仍然有不同的速度。因此，仅仅使用FLOPS作为计算复杂度的唯一度量标准是远远不够的，它可能会导致一个次优设计。

间接指标和直接指标之间的差异可以归结为两个原因：

有几个影响速度的重要因素FLOPS没有考虑，其一就是内存访问成本，它在一些诸如组卷积这样的操作中占了总运行时间的很大一部分，它是一些拥有强大算力如GPU的瓶颈，在神经网络设计期间不能简单地忽略这个因素；另一个重要因素就是并行度，在相同的FLOPS下，高并行度的模型肯定比低并行度的快很多；
其次，也与平台有关。举个例子，张量分解在早期的工作中被广泛使用用于矩阵乘法，然而，最近的工作发现分解在GPU上很慢，即使理论上张量分解降低了75%的FLOPS。我们调查发现这样的一个事实，理论上 3x3 的卷积比 1x1 慢9倍，但实际上由于最新的CUDNN库对 3x3 的卷积做了优化并不能达到预期效果。

在这些观察下，我们提出了两个在高效神经网络结构设计中需要考虑的原则。首先，直接度量标准(速度)替代间接度量标准(FLOPS)；其次，应该选择同一种目标平台进行评估。

在本文的工作中，我们遵从了上面说的两个原则，并且提出了一种更高效的网络结构。在Section 2中，我们首先分析了两种代表性的网络结构运行时间的表现；接着我们提出了针对高效网络结构设计的四个指导意见，而不仅仅考虑FLOPS，这些指导意见是与平台无关的，我们在两种不同的平台上(GPU和ARM)上进行了一系列可控制的实验来验证我们的指导意见是合理的，并且做了代码优化来确保我们的结论是最先进的。

在Section 3中，根据上面的四个指导建议，我们设计了一种新型的网络结构ShuffleNet V2，它在两个平台上都展示出了相比先前的网络更快的速度和更高的准确率。通过在Section 4中的压缩验证实验，Figure 1 (a)(b)给了一个压缩的观点，举个例子，在给定40MFLOPS的计算预算下，ShuffleNet v2要比ShuffleNet v1和MobileNet v2的准确率分别高3.5%和3.7%。

2. Practical Guidelines for Efficient Network Design

我们的研究是在两个广泛应用的硬件系统上进行的，我们注意到我们的CNN库比其他开源的CNN库更高效，因此确保了我们的观察结果和结论是坚实且重要的。

GPU，一个单核的英伟达GTX 1080Ti，卷积库是CUDNN7.0，我们也激活了CUDNN的基准测试函数为不同的卷积选择不同的最快的算法；
ARM，高通的晓龙810，我们使用的是高度优化实现方式，评估用的是单线程。

一些相关设置：

接通所有优化选项(比如张量融合，被用来减少小操作的开销)；
输入图像的尺寸为 224 x 224；
每个网络都被随机初始化和评估100次，取平均的运行时间作为最后的统计结果；

我们选取MobileNet v2和ShuffleNet v1作为代表型的网络结构进行分析，整体的运行时间被分解为不同操作所占用的时间集合(Figure 2所示)，我们注意到FLOPS度量仅仅代表的是卷积部分，虽然这部分占比很大，但是其他部分，诸如数据I/0、数据清洗、元素级操作(张量相加、ReLU等)也应该被考虑。基于这样的观察结果，我们对运行时间从不同层面进行了细节化的分析，并且提出了几条实用性的指导建议。

G1) 输入输出通道数相同时，内存访问成本(MAC)最小化

现在的网络中经常采用深度分离卷积，其中逐点卷积占据了整个计算复杂度的百分之九十多。我们研究 1x1 卷积，假定输入通道数和输出通道数分别为 c1和 c2， h 和 w分别为feature map的尺寸，那么 1x1 卷积操作的FLOPS为 B = hwc1c2 。

为了简单化，我们假定计算设备中的缓存足够大可以存储整个特征图和参数，因此内存访问成本为 MAC = hw(c1 + c2) + c1c2。

根据均值定理，有：

MAC的下界由FLOPS，即B给定，当且仅当c1 = c2时（输入和输出通道数相同），不等式取等号。这个结论是理论上的，实际中许多设别上的缓存并不总是足够大，现代计算库经常采用块策略来充分利用缓存机制，因此真实的MAC和理论上是由区别的。为了验证我们的结论，我们设计了基准测试实验，重复堆叠10个块，每个块包含两个卷积层，第一个卷积层的输入输出通道分别为c1和c2，或者第二个卷积层这样设置，得到下图的实验结果：

G2) 过多的分组卷积会加大内存访问成本(MAC)

分组卷积是现代神经网络结构的一个核心结构，它通过将各通道间的密集卷积转变为稀疏结构大大降低了计算复杂度(FLOPS)。一方面，它允许在固定FLOPS下使用更多的通道进而提升网络的性能；另一方面，通道数的增加导致MAC的增加。

我们继续使用G1中有关参数符号的声明，对于 1x1 的分组卷积来说 B = hwc1c2/g，其MAC为：

给定FLOPS下，内存访问成本会随着分组数g的增加而增加。为了验证这个结论，我们设计了一个基准测试网络，由10个逐点分组卷积层堆叠而成，table2展示了在给定整体FLOPS下不同分组的运行速度。

G3) 网络碎片化的结构会减小并行度

在GoogLeNet和自动生成结构中，一个"多路径"的结构被广泛采用在每一个块中。尽管这样的碎片化结构对准确率的提升是有益的，但是它在并行度高的计算平台(如GPU)运行效率并不好，同时还会引入内核启动和同步这样的额外开销。

实验设置：

每一个块都由 1-4 个 1x1 的卷积层串行或并行组成；
每一个块都被重复堆叠10次；

G4) Element-wise 操作是不能忽视的

从Figure 2可以看出来，element-wise 操作在运行时间中占据了不容忽视的一部分，尤其是在GPU上。在这里，element-wise包括激活、张量相加、添加偏置等，它们的共同特征就是FLOPS较小但是MAC相对较大。特别地，我们把深度卷积也看作一种element-wise操作，因为其也有较高的 MAC/FLOPS 比率。

为了验证上面的想法，我们设计了bottleneck单元，然后分别对是否移除ReLU和shortcut做了四种情况的研究，结果如上面的table4所示，我们观察到不管是对GPU还是ARM平台，移除了ReLU和shortcut之后都获得了近乎20%的加速。

Conclusion and Discussions

基于上面的指导建议和经验研究，我们得出了一个高效的网络结构应该注意的地方：

使用"平衡的卷积"，即卷积的输入输出通道数相等；
意识到使用分组卷积会增加MAC成本；
减少碎片化的结构；
减少element-wise操作；
平台特性(比如内存操作或者代码优化)也应该在实际的网络设计中考量在内；

目前的轻量级网络结构主要是是以FLOPS作为度量标准设计的，而没有考虑以上的几点属性。举个例子，ShuffleNet v1使用了过多的分组卷积(与G2违背)、bottleneck-like块(与G1违背)；MobileNet v2使用倒置的bottleneck结构(与G1违背)，同时使用了深度卷积和ReLU在"thick"特征图上(与G4违背)；自动生成结构过多的使用了碎片化结构(与G3违背)。

3. ShuffleNet V2: an Efficient Architecture

轻量级网络的主要挑战是在给定计算力预算下特征通道的数目是非常有限的，为了增加通道数的同时不太改变FLOPS，逐点分组卷积和bottleneck-like结构被广泛采用，同时通道清洗操作增强了不同组通道之间的信息交流，提升了模型的精度。构建的块结构如Figure 3中的(a)(b)所示。

正如在Section2中讨论的那样，ShuffleNet v1中充满了对四个建议的违反。逐点组卷积和bottleneck结构会增加MAC(与G1和G2相违背)；使用太多的组违反了G3；shortcurt中的element-wise加操作违反了G4。因此，为了使模型更高效，关键就在于如何保持等宽的通道以及使用密集的卷积操作而不是太多的组卷积。

3.1 通道拆分和ShuffleNet V2

为了实现上面的目的，我们设计了一种叫做通道拆分的操作，就如Figure 3中的©图，在每个单元开始，将c个通道的输入拆分为两个分支，一个分支遵从G3,做恒等映射；另一个分支过三个卷积层的同时保证输出通道数与输入通道数相同(遵从G1)，两个 1x1 的卷积没有再使用分组卷积(遵从G2)，其实拆分这个操作本身就已经分了两个组了；在卷积之后，两个分支进行拼接，通道数不变，之后的通道清洗操作增强了两个分支之间的信息交流。在这里我们发现，ShuffleNet v1中的"Add"操作不见了，像ReLU和深度卷积这样的element-wise也仅在一个分支中存在，“拼接”、“通道清洗”、“通道拆分”可以合着看成单独的element-wise操作，遵从了G4。

对于下采样单元(stride=2)，单元被修正为(d)所示，通道拆分被移除了，输出的通道数翻倍。整体的网络结构和ShuffleNet v1很相似(如table5所示)。一个额外的 1x1 卷积层用在GlobalPool层之前是为了混合通道特征，在每个块中的通道数按比例缩放得到不同FLOPS的网络，标记为 0.5x,1x等。

3.2 网络精度的分析

ShuffleNet V2不仅高效，而且精度也很高。主要的原因有两点：

每个块使用了更多的特征通道和更大的网络容量，很高效；
在每个块中，一半的特征通道直接通过这个块结构进入下一个块结构，这可以被看作一种特征复用，和DenseNet、CondenseNet的思想很接近；

在DenseNet中，为了分析特征重用模式，我们绘制了层间权重的平均L1范数如Figure 4(a)，很明显相邻层的联系要远远比其他层之间更加紧密，这意味着所有层之间的密集连接可能会带来冗余，最近的CondenseNet也支持这个观点。

在ShuffleNet V2中，很容易证明第 i 个块和第 (i + j) 个块之间“直接连接”的通道数为r**j x c，这里的 r = 1-c’/c（这里我感觉是论文的地方有问题），换句话来讲，两个块之间特征重用的数量是指数衰减的，Figure 4(b)绘制了各层间特征重用的比例。

4. Experiment

本文的 Ablation 实验是在 ImageNet 2012 分类数据集上展开的。按照一般原则，所有的对比网络有四种不同的计算复杂度，分别是 40，140，300 和 500+ MFLOPs。这样的复杂度在移动端场景中很典型。超参数及其他设置与 ShuﬄeNet V1 一样。本文对比的网络架构分别是 ShuﬄeNet V1，MobileNet V2，Xception，DenseNet。具体结果如下表所示：

Table8是关于一些模型在速度、精度、FLOPs上的详细对比。实验中不少结果都和前面几点发现吻合，比如MobileNet v1速度较快，很大一部分原因是因为简单的网络结构，没有太多复杂的支路结构；IGCV2和IGCV3因为group操作较多，所以整体速度较慢；Table8最后的几个通过自动搜索构建的网络结构，和前面的第3点发现对应，因为支路较多，所以速度较慢。

你可能感兴趣的:(轻量级网络架构解读)

关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end