月臻

DenseNet(Densely Connected Convolutional Networks)论文解读

论文链接：https：//arxiv.org/pdf/1608.06993.pdf
代码链接：https：//github.com/liuzhuang13/DenseNet

Abstract

目前的工作表明如果将接近输入和输出的层之间短接，卷积神经网络可以更深、精度更高且高效。在本篇论文中，我们利用到观察到的这个结果提出了密集卷积网络(DenseNet)，它的每一层在前向反馈模式中都和后面的层有连接，与L层传统卷积神经网络有L个连接不同，DenseNet中每个层都和其之后的层有连接，因此L层的DenseNet有 L(L+1)/2 个连接关系。对于每一层，它的输入包括前一层的输出和该层之前所有层的输入。DenseNets有几个引入注目的优势：

缓解了梯度消失
加强了特征传播
增强了特征复用
减少了参数量

我们在四个目标识别的基准测试集（CIFAR-10、CIFAR-100、SVHN 和 ImageNet）上评估了我们的结构，可以发现DenseNet在减少计算量的同时取得了更好的表现。

Introduction

当CNN网络的深度持续增加时，一个新的研究问题就会出现：输入部分的信息流或者梯度在经过很多层之后，当到达网络结束（或开始）的地方时会消失。关于这个问题的研究有很多，可以发现的是虽然在网络拓扑和训练时方法各异，但是它们都有一个关键的特征：即前层和后层之间有短接。

在这篇文章中，遵从上面的直觉并提出了一种简单的连接模式：可以最大化网络中各层之间的信息流动，我们将所有层之间都相互连接，为了保留前向的特征，每个层都会获得前层的额外输入并将本层的特征传递给后续的层。Figure 1展示了这个关系，与ResNets相比，我们没有对上一层的输入和上一层的输出进行特征融合后再送入下一层，而是将前面所有层的特征图它们进行拼接。因此，第l层有l个输入，它由前面卷积层的特征图构成，并且本层的特征图也会传递给后续的L-l个层，所以一个L层的网络总共会有 L(L+1)/2 个连接，而不是传统结构的L个。

一个反直觉的事实就是相比传统卷积神经网络而言，DenseNet的参数量更少，这是因为它每一层的通道数都大大缩减了；
另一个比较大的优势是提高了整个网络的信息和梯度流动，这使得网络更容易。每一层都可以将得到来自损失函数的梯度和原始的输入信号，这相当于深度监督的影响，对网络训练很有帮助；
同时DenseNet还有正则化的影响，它使得面对小样本任务时过拟合的风险大大降低；

DenseNets

x0作为整个网络结构的输入，网络由L层组成，每一层的运算用一个非线性转换Hl()表示，这里的l表示第几层。Hl()可以看成由BN、ReLU、池化、卷积操作定义的复合运算。同时将第l层的输出定义为xl。

ResNets.

传统的卷积神经网络中，第l层的输入为第l-1层的输出，第l层的输出为：

ResNets添加了旁路支路：

ResNets的优势是梯度可以直接通过恒等映射从后面的层传到前层来，然而，恒等映射和 Hl的输出通过叠加结合在一起，这一定程度上阻碍了网络中的信息流。

Dense connectivity

[x0,x1,…,x(l-1)]是将第0、1、…、l-1层的feature map拼接在一起。

Composite function

这里的Hl()可以看成是由BN、ReLU、3x3卷积的组合运算。

Pooling layers

当特征图的尺寸发生变化时，等式（2）中的拼接操作是不可行的，然而，卷积网络的一个重要部分就是通过下采样改变特征图的尺寸。为了在我们的网络结构中做下采样，我们将网络划分为多个密集连接卷积网络块，如Figure 2所示，我们将块之间的层看作转换层，它是由BN、1x1卷积层、池化层构成，目的是做卷积和池化。

Growth rate

如果每一个Hl都产生k个feature map，那么第l个层就会有 k0 + k x (l - 1) 个输入的feature map，k0表示输入层的通道数，DenseNet和已经存在的网络结构中一个重要区别是DenseNet的通道数很窄，比如k=12，我们将超参数k定义为网络的growth rate，在后面的分析中我们会看到小的growth rate对于在测试集上获得很好的表现也是足够的。一个解释就是每一层都可以访问块中前面层，因此，可以理解为网络的“集体认识”，可以把网络的特征图看作是全局变量，每过一个层，就往全局变量中添加k个特征图。

Bottleneck layers

尽管每个层的输出都只有k个通道，但是它的输入通道数很大。可以在 3x3 的卷积层之前使用 1x1 的瓶颈层来提高计算效率，我们发现这样的设计非常高效，一个 bottleneck层代指 BN-ReLU-Conv(1x1)-BN-ReLU-Conv(3x3)，这样的网络结构称为 DenseNet-B。在我们的实验中，1x1 的卷积层的输出通道为 4k。

Compression

为了使模型更加紧密，我们通过transition层减少特征图的数量。如果一个dense block包含m个特征图，那么通过transition层会产生 theta * m（下取整）个输出feature map，在这里 0

Implementation Details

在除了ImageNet之外的数据集上，实验中的DenseNet都用了三个dense block（ImageNet用了四个块），每个块总包含有相同数量的层。其他的具体细节可以参考论文第三节中的Implementation Details部分。

在ImageNet数据集上，我们使用了带有四个dense block的DenseNet-BC结构，输入图片尺寸为224x224。最开始的卷积层为2k个7x7x输入图片通道数的卷积核，步长为2；所有层的feature-maps的数量也都由k设置，对ImageNet使用的网络配置如table1所示：
DenseNet-121是指网络总共有121层：(6+12+24+16)*2 + 3(transition layer) + 1(7x7 Conv) + 1(Classification layer) = 121;

再详细说下bottleneck和transition layer操作。在每个Dense Block中都包含很多个子结构，以DenseNet-169的Dense Block（3）为例，包含32个11和33的卷积操作，也就是第32个子结构的输入是前面31层的输出结果，每层输出的channel是32（growth rate），那么如果不做bottleneck操作，第32层的33卷积操作的输入就是3132+（上一个Transition Layer的输出channel），近1000了。而加上11的卷积，代码中的11卷积的channel是growth rate4，也就是128，然后再作为33卷积的输入。这就大大减少了计算量，这就是bottleneck。至于transition layer，放在两个Dense Block中间，是因为每个Dense Block结束后的输出channel个数很多，需要用11的卷积核来降维。还是以DenseNet-169的Dense Block（3）为例，虽然第32层的33卷积输出channel只有32个（growth rate），但是紧接着还会像前面几层一样有通道的concat操作，即将第32层的输出和第32层的输入做concat，前面说过第32层的输入是1000左右的channel，所以最后每个Dense Block的输出也是1000多的channel。因此这个transition layer有个参数reduction（范围是0到1），表示将这些输出缩小到原来的多少倍，默认是0.5，这样传给下一个Dense Block的时候channel数量就会减少一半，这就是transition layer的作用。文中还用到dropout操作来随机减少分支，避免过拟合，毕竟这篇文章的连接确实多。

Experiments

我们设计实验在几个基准测试集上验证了DenseNet的有效性，并着重与ResNet 和它的几个变体做了比较。
Training

训练的具体细节：

SGD训练网络；
在CIFAR和SVHN上的batch size为64，epochs为300和40，初始学习率为0.1，在训练10%和75%的epochs之后衰减为原来的10%；
在ImageNet上，我们训练网络时的batch size 为256，epochs为90，初始学习率为0.1，epoch为30和60时衰减到上次的10%；
训练过程采用了和 ResNet 的文章完全相同的设定。但仍然存在一些技巧，例如因为多次 Concatenate 操作，同样的数据在网络中会存在多个复制，这里需要采用一些显存优化技术，使得训练时的显存占用可以随着层数线性增加，而非增加的更快，相关代码在链接中可以查看；
权重衰减率为10**(-4)，没有dampening的Nesterov momentum为0.9，dropout率为0.2；

Classification Results on CIFAR and SVHN

Table2是在三个数据集（C10，C100，SVHN）上和其他算法的对比结果。ResNet[11]就是kaiming He的论文，对比结果一目了然。DenseNet-BC的网络参数和相同深度的DenseNet相比确实减少了很多！参数减少除了可以节省内存，还能减少过拟合。这里对于SVHN数据集，DenseNet-BC的结果并没有DenseNet(k=24)的效果好，作者认为原因主要是SVHN这个数据集相对简单，更深的模型容易过拟合。在表格的倒数第二个区域的三个不同深度L和k的DenseNet的对比可以看出随着L和k的增加，模型的效果是更好的。

Classification Results on ImageNet

Discussion

DenseNets与ResNets相比的区别仅在于等式（2）和等式（3）所描述的Hl()的不同，然而，这一点微小的修正直接导致了两种结构不同的表现。

Model compactness
Implicit Deep Supervision

DenseNet高性能的一种解释就是每一层都会接受到通过shorten connections引入的来自损失函数的额外监督。

Stochastic vs. deterministic connection

在DenseNet和stochastic depth regularization之间存在着一种有趣的联系，在stochastic depth中，残差块中的层可以随意丢弃，这使得周围层之间可能直接相连。但是池化层从未丢弃，这看起来有些和DenseNet类似，尽管两者的方法不同，但我们可以从stochastic depth的角度理解DenseNet——引入了正则化的意味。

Feature Reuse

DenseNet允许本层访问之前所有层的feature maps，我们设计了一组实验来验证了这个想法，在C10+数据集上L=40、k=12，对于一个块内的l层，我们计算和它相连接的s层的权重平均值的绝对值，Figure 5展示了三个dense块的热力图，权重平均值绝对值展示了这一层对之前某一层特征的复用率。
可以发现：

在同一个块内所有层都经过了很多层传播它的权重，这表明了较早层提取的特征仍然会被较深层直接使用；
即便是transition层，也使用到之前dense块内所有层的特征。
第二个和第三个dense块对之前transition层的复用率很低，这说明transition层的输出仍然有很多的冗余特征。这也为DenseNet提供了压缩必要性的证据支持。
尽管最后的位于最右面分类层也使用了dense块多层的特征信息，但是似乎它更倾向于使用最后几个层的feature-maps，说明在网络的最后几层产生了一些高级的特征。

基于tensorflow的DenseNet实现：

https://blog.csdn.net/weixin_41923961/article/details/82940854

你可能感兴趣的:(轻量级网络架构解读)

java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。