微信公众号[机器学习炼丹术]

大汇总 | 一文学会八篇经典CNN论文

本文主要是回顾一下一些经典的CNN网络的主要贡献。

论文传送门

【google团队】

[2014.09]inception v1: https://arxiv.org/pdf/1409.4842.pdf
[2015.02]inception v2: https://arxiv.org/pdf/1502.03167.pdf
[2015.12]inception v3: https://arxiv.org/pdf/1512.00567.pdf
[2016.02]inception v4: https://arxiv.org/pdf/1602.07261.pdf

【microsoft】

[2015.12]resnet : https://arxiv.org/pdf/1512.03385v1.pdf

【Facebook】

[2016.11]resnext : https://arxiv.org/pdf/1611.05431.pdf

【CORNELL & Tsinghua & Facebook】

[2016.08]DenseNet : https://arxiv.org/pdf/1608.06993.pdf

【momenta】

[2017.09]SEnet : https://arxiv.org/pdf/1709.01507.pdf

Inception v1

【主要贡献】
在传统网络中，神经网络都是通过增加深度来扩展的。Inception结构的最大特点是从网络的宽度上进行改进，通过concat操作将经过不同kernel尺度处理的feature map进行拼接。

【其他贡献】
使用global average pooling代替全连接层，减小参数数量；使用1*1卷积层来缩减通道数量

Inception v2

【主要贡献】
首次提出BN层，减少Internal Covariate Shift。

Inception v3

【主要贡献】
提出卷积分解，用两个3*3卷积核代替5*5的卷积，用三个3*3卷积核代替7*7卷积核，后来提出用1*n,n*1的卷积核代替n*n

Inception v4

【主要贡献】
基于inception v3的基础上，引入残差结构，提出了inception-resnet-v1和inception-resnet-v2，并修改inception模块提出了inception v4结构。

【值得一提的是】
基于inception v4的网络实验发现在不引入残差结构的基础上也能达到和inception-resnet-v2结构相似的结果，从而认为何凯明等人认为的：“要想得到深度卷积网络必须使用残差结构”这一观点是不完全正确的。

Inception v4的结构

感觉到Inception v4，结构就有点诡异而复杂了，有点魔改的味道。

Inception-resnet-v1

就是有一个残差结构，其他部分也是跟inception v4类似。

Inception-resnet-v2

与incpetion-resnet-v1差别不大，在通道数上做了修改。

实验结果对比

在inception-resnet-v1与inception v3的对比中，inception-resnet-v1虽然训练速度更快，不过最后结果有那么一丢丢的差于inception v3；
在inception-resnet-v2与inception v4的对比中，inception-resnet-v2的训练速度更块，而且结果比inception v4也更好一点。所以最后胜出的就是inception-resnet-v2。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WY0nLAar-1595354152991)(http://helloworld2020.net/wp-content/uploads/2020/07/wp_editor_md_a786245a7925825316bcee5bbd2c5ff8.jpg)]

【个人建议把重点放在inceptionv1-v3上，对v4了解一下即可】

Resnet

resnet提出是在Inception v3和inception v4中间，这样时间线就连上了。

【主要贡献】
残差结构提出解决了梯度消失的问题。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-AeHfneIF-1595354152992)(http://helloworld2020.net/wp-content/uploads/2020/07/wp_editor_md_9fc0fb9e4584d9612e630ef0f4a742cf.jpg)]

左边是基本的结构，右边是使用1*1卷积核来降低参数。

下图是VGG网络，plain网络和残差网络的对比，重点就是体现残差网络的残差结构的跳跃的感觉。

ResNext

增加网络的深度depth是改进网络的一种思路，GoogLeNet增加网络的宽度width是另一种思路，ResNext提出了一种新的方式叫做cardinality，基数。

cardinality=32的时候，就是分成32组进行卷积。上图中右边的模块，就是把输入feature map卷积从256通道压缩到4通道，然后再对4通道的特征图进行3*3的卷积。然后这个过程并行重复32次，最后再把所有的结果相加，然后再根据残差结构加上输入的特征图。

【值得一提的是】
下面的三种变体完全等价：

图A就是之说的结构；
图B是在3x3卷积后进行了concat，然后再通过统一的1x1卷积操作，这个有点类似于inception-resnet；
C图结构更简洁且速度更快。采用组卷积。采用32个group，每个group的输入输出的通道数都是4；

【因为组卷积的放在在pytorch等库函数中支持，所以使用组卷积的方法来实现resnext就非常的方便，就改一下参数就可以了。】

【实验结果来说，增加Cardinality的效果是有的，和resnet50/101相比，参数量相近的情况下，resnext的准确率有所提升。】

【个人感想：这个resnext我觉得就是一个提升网络模型的trick，在建立模型的时候，baseline跑完了，可以可以试一试分组卷积，看看是否会有提升】

DenseNet

densenet紧接着在resnet之后提出，结合了resnet的思想。网络改进除了像resnet和inception在深度和宽度上做文章外，densenet通过利用feature来减少参数的同时提高效果，对feature进行有效利用并加强feature的传递。

【主要贡献】
将每一层都与后面的所有层连接起来，如果一个网络中有L层，那么会有L(L+1)/2个连接，具体连接如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xrejbcum-1595354152997)(http://helloworld2020.net/wp-content/uploads/2020/07/wp_editor_md_9e9ef882bc4e97834a21465a97bf49e5.jpg)]

DenseNet的一个优点是网络更浅，参数更少，很大一部分原因得益于这种dense block的设计，dense block中每个卷积层的输出feature map的数量都很小（小于100），而不是像其他网络一样动不动就几百上千的宽度。同时这种连接方式使得特征和梯度的传递更加有效，网络也就更加容易训练。原文的一句话非常喜欢：Each layer has direct access to the gradients from the loss function and the original input signal, leading to an implicit deep supervision.直接解释了为什么这个网络的效果会很好。前面提到过梯度消失问题在网络深度越深的时候越容易出现，原因就是输入信息和梯度信息在很多层之间传递导致的，而现在这种dense connection相当于每一层都直接连接input和loss，因此就可以减轻梯度消失现象，这样更深网络不是问题。另外作者还观察到这种dense connection有正则化的效果，因此对于过拟合有一定的抑制作用，博主认为是因为参数减少了，所以过拟合现象减轻。

后来引入了dense block来解决特征图尺寸不一致的问题：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rKAk3LkT-1595354152998)(http://helloworld2020.net/wp-content/uploads/2020/07/wp_editor_md_a32ae17d48596eaa0dab4ee33e83b8af.jpg)]
可以看出，只有在dense block内才会网络层全连接的这种结构，彼此dense block并无连接。

SENet

【主要贡献】
从特征通道之间的关系入手，对特征通道之间的关系进行建模表示，根据重要程度增强有用的特征、抑制没有用的特征。
个人感觉像是在通道上做权重，类似于通道上的attention。

SE是这个结构的两个步骤，squeeze和excitation。

squeeze挤压

对通道进行挤压，也就是全局平均池化，将shape为[C,H,W]的特征图变成[C,1,1]。

Excitation激励

首先通过一个全连接层进行降维，即如下公式中的W1z，然后经过relu激活函数。即δ(W1z)，再经过全连接进行升维，即W2(δ(W1z))，然后通过sigmoid进行权重激活。
$\sigma(W_2\delta(W_1z))$
这个s就是特征图每一个通道的权重值。

之后我们把这个s和每一个通道相乘，就可以得到权衡过通道重要性的特征图了。个人经过这个SENet，效果真的不错。

下面试SENet block：

可以看到，这个模块是放在Inception模块之后的，所以在自己的网络中，也可以加入一个SENet组件进去。SE block是一个寄生在其他网络结构上的一个性能提升trick。

下面是残差se block，增加了残差结构：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EtTXUvVx-1595354153001)(http://helloworld2020.net/wp-content/uploads/2020/07/wp_editor_md_f06ae59318f59a0910a03135737a1924.jpg)]

【性能对比】
论文中，作者浮现了各大主流网络模型，然后加入了SE模块，发现性能均有提升！

参考博文：

https://www.cnblogs.com/shouhuxianjian/p/7786760.html
https://blog.csdn.net/loveliuzz/article/details/79135583
https://blog.csdn.net/u014380165/article/details/71667916
https://blog.csdn.net/xjz18298268521/article/details/79078551
http://www.sohu.com/a/161633191_465975

你可能感兴趣的:(深度学习不得不了解的技巧)

springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name