LeNet、AlexNet, VGG, GoogleNet和ResNet

一:LeNet-5(深度学习开端)

1),模型结构

LeNet、AlexNet, VGG, GoogleNet和ResNet_第1张图片

C1:卷积层,6个卷积核,核大小为5*5,参数个数为(5*5+1)*6=156

S2:池化层,池化单元为2*2,没有重叠,计算为:2×2 单元里的值相加然后再乘以训练参数w,再加上一个偏置参数b(每一个feature map共享相同w和b),然后取sigmoid (S函数:0-1区间)值,作为对应的该单元的值,参数个数为2*6.

C3:卷积层,16个卷积核,卷积模板为5*5,每个feature map只与上一层S2中部分feature maps相连接,具体连接方式如下表,C3层的第一个特征图(列序号为0)是S2层中序号0,1,2特征图进行连接操作后的值。此处采用部分连接,未采用全连接,首先就是部分连接使得可计算的参数就会比较少,其次更重要的是它能打破对称性,这样就能得到输入的不同特征集合。参数数目为(5×5×3+1)×6 +(5×5×4+1)×9 +5×5×6+1 = 1516,1为偏置。

LeNet、AlexNet, VGG, GoogleNet和ResNet_第2张图片

S4:池化层,16个特征图,每个feature map的大小为5×5,参数个数为16×2 = 32个。

C5:卷积层,120个卷积核,卷积核的大小为5×5,上下两层的特征为全连接(非部分连接),参数个数:120*(5*5*16+1) = 48120

F6: 全连接层,激活函数sigmoid。

LeNet、AlexNet, VGG, GoogleNet和ResNet_第3张图片

注意点:

1,输入图像Size为32*32。mnist数据库中最大的字母为(28*28)。这样做的目的是希望潜在的明显特征,如笔画断续、角点能够出现在最高层特征监测子感受野的中心。

2,卷积运算一个重要的特点就是:通过卷积运算,可以使源信号增强,并且降低噪音。并且,不同的卷积核能够提取到图像中的不同特征。

3,池化层:降低输出结果的维度、网络训练参数及模型的过拟合程度;理想情况下能保留显著特征;能提供平移和旋转不变性;


二:AlexNet(深度学习回归)

LeNet、AlexNet, VGG, GoogleNet和ResNet_第4张图片


“https://blog.csdn.net/zyqdragon/article/details/72353420”该网页对模型的细节描绘的很清楚,可参考。

原始输入:227*227*3

c1-c5:单层均为卷积加池化,激活函数:relu

fc6: 4096个6*6*256尺寸的滤波器对输入数据进行卷积运算,fc+relu+dropout,

fc7: fc+relu+dropout,

fc8: fc


不同单元的好处(加粗为本文章重点):

Relu, 多GPU:提高训练精度+relu的诸多好处+GPU加速训练

数据扩增(data augmentation)+dropout:防止过拟合,数据扩增有随机crop,平移,反射变换,随机光照

局部响应归一化(LRN):提高精度,增强泛化能力

Imagenet图像数据:大数据训练

池化:采用最大池化,避免平均池化的模糊作用


三:VGG

目标:验证大规模图像识别任务中,卷积网络深度对其效果的影响。

贡献:通过使用3*3的卷积滤波架构,来增加网络的深度,当达到16-19这样的权重层的时候,使得效果有重大的提升。

文中尝试了下图中的网络配置(每列表示一种配置):

LeNet、AlexNet, VGG, GoogleNet和ResNet_第5张图片

不同网络结构呈现的效果如下图:

LeNet、AlexNet, VGG, GoogleNet和ResNet_第6张图片

激活函数:RELU(末尾层是Softmax)

小卷积核:一方面能表示上下、左右、中心,这些模式的最小单元;另一方面多个较小的卷积核的卷积层代替一个较大的卷积核的卷积层,可以减少参数,也增加了更多的非线性映射,可以增加网络的表达能力和拟合能力。

其中一种网络配置使用了LRN层,经实验发现对性能提升并没有什么帮助,而且还浪费了内存的计算的损耗。


四:GoogleNet和ResNet未完待续

你可能感兴趣的:(LeNet、AlexNet, VGG, GoogleNet和ResNet)