摘要: 简介ResNet和Inception很强,将两者结合,可以获得更优的模型Inception-ResNet。
1. Introduction: 残差学习有助于深度网络的的训练,inception是很深的网络,适合把残差学习技术加进来。
2. Related Work: 介绍ResNet思路,并提出质疑,同时给出结论:没有残差结构一样可以训练深度网络。
3. Architectural Choices: Inception-V4,Inception-ResNet-V1/V2, Scaling of the Residuals。
4. Training Methodology: 训练配置
5. Experimental Results: 实验结果对比。
6. Conclusions: 总结本文提出的三个网络模型的内容:Inception-V4,Inception-ResNet-V1/V2
① 研究背景:近年深度卷积神经网络给图像识别带来巨大提升,残差连接的使用使卷积神经网络得到了巨大提升。
② 提出问题:是否可以将Inception与残差连接结合起来,提高卷积神经网络。
③ 本文成果:从实验经验得出,残差连接很大程度的加速了Inception的训练;提出了新的网络模型结构streamlined architectures。对于很宽的residual inception网络,提出激活值缩放策略,以使网络训练稳定。
主要有六大模块:
再经过平均池化、dropout、输出到softmax进行输出。
每个模块针对性的去设计,适用性非常弱。
模型总共76层
标了V表示不进行padding;
不标V表示会填充一定的像素,使特征图分辨率不发生变化。
Part 1:3个3×3卷积堆叠下降两次;
Part 2:高效特征图下降策略(借鉴InceptionV3);
标准的inception module。
采用3个分支,其中卷积核的参数k,l,m,n分别为192,224,256,384. 控制整个模型的计算量
第一个分支:3×3的带重叠的池化(借鉴AlexNet)
第二个分支:3×3的卷积
第三个分支:5×5的卷积
非对称卷积操作部分,借鉴nception-V3,在12-20的特征图分辨率的时候用效果比较好,这里是17×17
对比inception-ResNet v1/v2 模块
V1无分支(7层)
Part 1:3个3×3的堆叠—>相当于7×7的卷积核。 开头的部分尽量用感受野较大的卷积层。
Part 2:池化,分辨率下降
Part 3:1×1提升特征图的通道。从64上升到80;两个3×3的卷积,stride = 2,下降分辨率。
V2与Inception-V4相同(9层)
均处理35×35大小的特征图;
V1 卷积核数量少,V2卷积核数量多
做出不同计算量的模型对标Inception v3和v4
将35×35大小的特征图降低至17×17
Inception-V4和两个Inception-ResNet都一样
处理17×17特征图的分辨率
V1 卷积核数量少,V2卷积核数量多
先通过1×1的卷积来压缩特征通道数,用两个分支,一个分支使用非对称卷积,两个分支输出时,两个分支的特征图进行拼接之后,再输入到1×1的卷积进行计算,逐元素相加。
处理8×8大小的特征图
V1 卷积核数量少,V2卷积核数量多
将ResNet中的residual connection思想加到Inception中,
根据Stem和卷积核数量的不同,设计出了Inception-ResNet-v1和v2。(V1卷积核数量少,V2多,为了匹配Inception V3,V4)
Inception-ResNet -v1 共7+5×4+3+5×4+1=94层
Inception-ResNet -v2 共9+5×4+3+5×4+1=96层
五大模块一样,第一个模块不一样。
(1)让模型训练稳定,在残差模块中对残差进行数值大小的缩放,通常乘以0.1-0.3之间的一个数。
不是一定要用。用的条件:
这个现象用小学习率和BN都无法避免。
可以使用在求和前进行缩放,可以稳定训练。缩放系数为0.1-0.3之间。
(2)与resnet预热训练进行对比。预热训练也是为了稳定模型,先用较小的学习率进行训练,再恢复正常学习率。
从实验中可以看出:
v1: Inception模块,1×1卷积,多尺度卷积。22层
Inception模块:多尺度的卷积核对特佂图进行特征提取,再按照通道维度进行拼接。
1×1卷积:压缩特征图的厚度
v2: 针对ICS问题,提出了BN技术。加速了模型训练的时间。31层,让标准化层成为深度神经网络的标配。
改进:
激活函数前加入BN;
5×5卷积替换为2个3×3卷积;(参数量变少)
第一个Inception模块前增加一个Inception结构;
尺寸变化采用stride = 2的卷积;
增加9层到31层
v3: 四个模型设计准则;两种卷积分解方式;特征图下降策略。
改进:
在v2的基础上,加上RMSProp、Label Smoothing、采用非对称卷积提取17×17特征图、采用带BN的辅助分类层。