VGGNet论文

一、介绍
1、提升卷积神经网络原始架构性能的方法
1)使用更小的接受窗口(receptive window size)和对第一个卷积层使用更小的步幅(stride)
2)通过所有图像和多种规模平反地对训练网络和测试网络进行处理
3)(本文)聚焦网络的深度。首先固定网络架构中的其它参数,然后通过加入更多的卷积层来逐渐增加网络的深度。这个方案是可行的,因为在所有层中所使用的卷积过滤器都非常小(33
二、卷积网络的配置
1、架构
1)输入图像:224
224 RGBimage
2)预处理:对训练集中图片的每个像素都及拿去RGB的平均值
3)过滤器尺寸:33、11(可被看作是输入信道的线性转换)
4)卷积的步幅:固定为1像素
5)填充(padding):1像素
6)池化:5个22的最大池化层,步幅为2
7)全连接层(三层):前两层4096个通道,第三层由于在ILSVRC上有1000个分类,故有 1000个通道
8)最后一层为softmax层
9)激活函数:ReLu
10)所有层都不包含局部响应正则化(Local Response Normalisation,LRN),该正则化不会提升网络在ILSVRC数据集上的性能,但是会产生存储消耗和计算时间。
2、配置
表一列出了网络深度的变化,表二列出了表一中各网络中所含的参数
结论:尽管网络非常深,网络的参数不会比带有大宽度卷积层和接收域的浅层网络多。
3、讨论
1)一叠两层的3
3卷积层(中间加着空间池化层)比一层55的卷积层有更有效的接受域,三层33的卷积层比一个77的卷积层有更有效的接受域。
2)使用1)所得结论,本文的收获:
首先,使用三个非线性的修正层来取代单个修正层,这使得决策函数更具有区分性。
其次,减少了参数的数量。如果,所有的输入和输出层都有一个三层的3
3的卷积层,设其有C个通道,则本次堆叠所含有的参数数量:3*(32C2)=27C2个权值,同时《一个单层的77卷积过滤器需要72C2=49C2个权值。
3)使用11的卷积层可以增加决策函数的非线性性,同时也不会影响卷积层的接收域。即使在本文中11本质上一种空间中同维的线性投影(输入与输出的通道数量相同),但却通过修正函数增加了额外的非线性性。
三、分类框架
1、训练
1)mini_batch梯度下降来最优化多项式逻辑回归目标,batch的尺寸设置为256
2)momentum设置为0.9
3)权值衰减来正则化即L2正则化,罚项设置为5.10-4
4)对前两个全连层使用dropout正则化(dropout率设为0.5)
5)初始学习率设为10-2,然后当验证集上的准确率停止提升时通过除以10来减小学习率。学习率总共减小了三次,并且370K次迭代(74epochs)后学习停止。发现:因为网络深度的增加、更小的卷积过滤器尺寸和对某些层的预初始化所带来的隐含规则化,网络只需要更少的epoch便能收敛。
6)权重的初始化,首先训练表一中A的配置,足够浅的网络训练时使用随机初始化,当训练更深的网络结构时,用网络A的层初始化前四层卷积网络和最后三层全连接网络(中间的层随机初始化),开始时,对于预初始层不减少学习率,允许他们在学习中改变。对于随机初始化,从均值为0,方差为10-2的正太分布中采样,bias设置为0。发现:可以不通过使用随机初始操作预训练来初始权重。
7)实现图片尺寸为224224,随机剪裁训练图像。为了增加训练数据集的数量剪裁方式为:翻转和随机RGB色彩转换。
训练图像尺寸:
S:训练图像等轴重调的最小边,卷积神经网络的输入图像通过它进行剪裁
当剪裁尺寸固定为224
224时,规则S能接纳所有小于224的值。对于S=224,剪裁能捕获到整个图像数据,完全跨越训练集的最小边。对于S>>224,剪裁相当于图像的一小部分,包括小的物体或者物体的一部分。
设置S的两种方法:(1)固定S,这相当于单一规模的训练(采样剪裁的图像内容任然表示对规模图像数据)。本实验在两个S值下训练:256和384 .(2)S的设置是多规模的训练。每一训练图像在一定范围内(本文设置为:256-512)进行独立的随机重调。因为图像中物体的尺寸不同,将这一因素进行考虑非常有益。由于速度的原因,采用单规模模型预训练(S=384)调试好的层来训练多规模模型
2、测试
首先预先定义好测试最小图像边(Q)来等轴重调输入图像,Q可以不与S相等(对于每个S使用几个不同Q值可以带来性能的提升)。网络会被频繁应用于重调后的测试集,全连接层首先被转换为卷积层(第一层全连接层变为77的卷积层,最后两个全连接层变为11的卷积层)。以此产生的全连接-卷积网络会被应用到整个图像(未被剪裁)中,结果是一个分类分数图,它的通道数量等于类别数量,并且带有取决于输入图像尺寸的可变空间分辨率。最后,为了使图像的类别分数通过大小固定的向量进行表达,类别分数图会在空间上进行平均化。
因为全连接-卷积网络被应用与整个图像,那就没必要在测试时采集多个剪裁图像。同时,使用一大组剪裁图像能提升正确率,因为与全连接-卷积网络相比它能产生对输入图像的更好采样。
多剪裁评估是密集评估的补充,因为不同的卷积边界条件:当在一个剪裁上应用卷积网络时,卷积的特征地图被0填充,然而在密集评估中同样剪裁的填充自然是来自图像的附近部分(因为卷积和空间池化),这从本质上增加了整个网络的接受域,所以更多的环境被捕捉到了。
3、实现细节
使用多块GPU进行训练和测试
四、分类实验
数据集:ILSVRC-2012数据集,该数据集包括1000个类别,将数据集划分为三个子集:训练集(1.3M张图),验证集(50K张图),测试集(100K张流出分类标签的图像)
评估标准:top-1(多类别分类误差,如错误分类图像的占比),top-5(ILSVRC中主要评估标准,计算的是在top-5预测分类之外完全真实分类的图像的占比)
1、单规模评估
1)局部响应规范化没有提升模型的性能
2)D(网络全部使用33的过滤器)而C(使用了三个11 的过滤器),尽管它们有相同的深度,但C的性能表现不如D好,这表明尽管额外的非线性确实有助于网络结构的改善(C比B好),但使用非零碎接受域的卷积过滤器来捕捉空间环境更重要。当深度达到19层时,网络结构的错误率达到了饱和,但是对于更大数据集来说,更深的网络结构会更有益。再将网络B与5*5的浅层卷积网络比较后,确信:小过滤器的深层神经网络比大过滤器的浅层神经网络性能表现更好。
3)在训练时实现尺度振荡(S为[256,512])要比固定最小边(S=256 orS= 384)表现更好,即使在测试时使用单一规模,这表明:通过规模振荡来扩大训练集确实有助于捕获多尺度图像数据
2、多尺度评估
在多尺度重调后的测试图像上训练模型(相当于多个Q值),然后平均结果分类的后验。表四表明在测试时实现尺度振荡比固定尺度表现好
3、多剪裁评估
表五表明:使用多剪裁评估要比密集评估好一点,这两个方法实际上是互补的,它们的结合会比任意一个单独的表现好
4、卷积困惑

你可能感兴趣的:(VGGNet论文)