LeNet AlexNet GoogLeNet VGGNet ResNet等经典网络结构

LeNet 1998年提出 是卷积神经网络的鼻祖
它的深度为5,包含2个卷积层和2个全连接层和1个Guassian connection
下面是LeNet-5网络结构(摘自吴恩达课程):LeNet中还未使用padding,所以一次卷积后,长宽会变小。
LeNet AlexNet GoogLeNet VGGNet ResNet等经典网络结构_第1张图片
LeNet是一个7层网络,有两个卷积层,两个池化层,两个全连接层,一个输出层。大约有60K个参数
下面介绍下ILSVRC比赛:
ILSVRC是一个视觉竞赛,全称ImageNet Large Scale Visual Recognition Challenge,即我们所说的 ImageNet比赛,它是基于ImageNet图像数据库的国际计算机视觉识别竞赛,有着人工智能“世界杯”之称。竞赛主办方会在每年的国际顶级计算机视觉大会ECCV或ICCV举办专题论坛,交流分享参赛经验。
ILSVRC 2017 已是最后一届举办。2018年起,将由WebVision竞赛(Challenge on Visual Understanding by Learning from Web Data)来接棒。WebVision所使用的dataset抓取自网络,不经过人工处理与label,难度大大提高。
ILSVRC2012

AlexNet

横空出世,掀起了深度学习的热潮
模型并行,网络分在了2个GPU中。AlexNet共有8个包含参数的层,其中5个卷积层,3个全连接层,最后一个全连接层后面是softmax层,使用了ReLU激活函数,还加入了LRN (local response normalization),使每个位置上所有通道的数字归一化,不需要太大的激活单元。但是后来发现,LRN其实没有多大作用。下面是现在常用的结构:它有大概60M的参数。
LeNet AlexNet GoogLeNet VGGNet ResNet等经典网络结构_第2张图片
AlexNet有五个卷积层,三个池化层,后面接两个全连接层。大约有60M个参数

ILSVRC2013
ZFNet
在AlexNet上进行了微调,ZFNet的意义不在于它获得了2013年ILSVRC的冠军,而是解释了为什么CNNs有效、怎么提高CNN性能。其主要贡献在于:

使用了反卷积,可视化feature map。通过feature map可以看出,前面的层学习的是物理轮廓、边缘、颜色、纹理,后面的层学习的是和类别相关的抽象特征。
与AlexNet相比,前面的层使用了更小的卷积核和更小的步长,保留了更多特征。
通过遮挡,找出了决定图像类别的关键部位。
通过实验,说明了深度增加时,网络可以学习到更好的特征。

ILSVRC2014

GoogLeNet

ILSVRC2014冠军
22层,使用了1x1卷积;
使用1x1卷积的目的:,1、增加了深度,2、降维,减小计算量。
使用了Inception结构
LeNet AlexNet GoogLeNet VGGNet ResNet等经典网络结构_第3张图片
GoogLeNet使用了1x1卷积来减少运算开支,以5x5卷积核为例,输出维度为28x28x32,所要运算的次数为:28x28x32x5x5x192=120M.采用1x1卷积之后,看下图:
LeNet AlexNet GoogLeNet VGGNet ResNet等经典网络结构_第4张图片
加入1x1卷积后的,所输出的最终维度不变,但是计算开支会大幅减小:28x28x16x1x1x192+28x28x32x5x5x16=12.4M,与直接用5x5卷积相比小了10倍。
加入了1x1卷积,我们来看Inception模块:
LeNet AlexNet GoogLeNet VGGNet ResNet等经典网络结构_第5张图片
LeNet AlexNet GoogLeNet VGGNet ResNet等经典网络结构_第6张图片
有9个有 9 个线性堆叠的 Inception 模块。它有 22 层(包括池化层的话是 27 层),最后的池化层采用的是平均池化。点击可看大图
LeNet AlexNet GoogLeNet VGGNet ResNet等经典网络结构_第7张图片
橙色框是 stem,包含一些初始卷积。紫色框是辅助分类器。为了阻止该网络中间部分梯度的「消失」过程,作者引入了两个辅助分类器(上图紫色框)。它们对其中两个 Inception 模块的输出执行 softmax 操作,然后在同样的标签上计算辅助损失。总损失即辅助损失和真实损失的加权和。该论文中对每个辅助损失使用的权重值是 0.3。
之后,陆续出现了Inception-v2,v3,v4Inception-ResNet v1,v2版本。

VGGNet

VGGNet使用简单的3x3卷积,不断重复卷积层(中间有池化),最后经过全连接、池化、softmax,得到输出类别概率。VGGNET共有6种不同类型配置,命名为A-E,深度从11(8个卷积层3个全连接)到19(16个卷积层3个全连接);每个卷积层的depth,从一开始的64到最后的512(每经过一个max-pooling,就增加一倍)
下面是VGG-16网络结构:用了33,步长为1的卷积核,每次卷积后的长宽不变,通过22,步长为2的池化层缩小长宽。
LeNet AlexNet GoogLeNet VGGNet ResNet等经典网络结构_第8张图片
有16个层(13卷积层+3全连接层),大约有138M个参数

ILSVRC2015

ResNet

残差网络
因为梯度消失和梯度爆炸的问题,非常深的网络是难以训练的。
ResNet采用了跳跃连接(skip connection),它可以从某一层获取激活,传递给更深的层。ResNet由残差块构建而成(residual block):
LeNet AlexNet GoogLeNet VGGNet ResNet等经典网络结构_第9张图片
ResNet可以非常深,而且训练的效率也不低
LeNet AlexNet GoogLeNet VGGNet ResNet等经典网络结构_第10张图片
同一个残差块中的维度都是相同的,如果维度不一样,可以给跳跃连接部分乘以一个矩阵 W s W_s Ws来使维度一样, W s W_s Ws中的参数是通过网络学习得到的。如下图黄圈所示, a [ l ] a^{[l]} a[l]是128维, a [ l + 2 ] a^{[l+2]} a[l+2]是256维,则 W s W_s Ws是256x128
LeNet AlexNet GoogLeNet VGGNet ResNet等经典网络结构_第11张图片

ILSVRC2017
SENet
通道注意力模型

你可能感兴趣的:(Learning,notes)