VGG——Very Deep Convolutional Networks for Large-Scale Image Recognition

目录

  • Abstract
    • question
    • method
    • answer
  • Introduction
    • why research?
    • Contribution
  • Details
    • Architecture
    • Training
    • Testing
  • Conclusion

Abstract

question

大规模图像识别任务下卷积网络深度对其预测准确率的影响。

method

使用具有非常小的(3×3)卷积滤波器的架构对深度不断递增的网络进行全面评估。

answer

通过将权重层深度推到16-19层可以在现有技术配置下(使准确率)实现显著提升。在ImageNet 2014挑战赛上VGG团队分别获得了图像定位项目第一名和分类跟踪项目第二名。

Introduction

why research?

为了实现更高的准确性,业界已经在改进Krizhevsky等人的所提出原始架构上做出了许多尝试。 例如以下改进:

  • 小卷积核。在第一个卷积层用了更小的卷积核和卷积stride(Zeiler & Fergus, 2013; Sermanet et al., 2014);
  • 多尺度。训练和测试使用整张图的不同尺度(Sermanet et al., 2014; Howard, 2014)。

作者则是改变深度情况来提升效果的,修复了架构的其他参数,并通过添加更多卷积层来稳定增加网络深度,由于在所有层中都使用了非常小的(3×3)卷积滤波器。

Contribution

  • 提出了更精确的ConvNet体系结构:考察在参数总数基本不变的情况下,CNN随着层数的增加,其效果的变化。
  • 在ILSVRC-2014比赛中获得第二名。

Details

Architecture

VGG——Very Deep Convolutional Networks for Large-Scale Image Recognition_第1张图片

  • 使用了感受野非常小的卷积核:3×3(这是左/右,上/下,中心点概念可捕获的最小尺寸)。
  • 感受野是卷积神经网络每一层输出的特征图上的像素点在输入图片上映射的区域大小,即特征图上的一个点跟原图上有关系的点的区域。
  • 网络没有包含局部响应归一化层(LRN)标准化。这种标准化不会提升ILSVRC数据集的性能,但会导致内存消耗和计算时间的增加。
  • 纳入1×1卷积核是一种增加决策函数的非线性而不影响卷积层感受野的方法。

那么,如果用三层3x3的卷积层组合来代替一层7x7卷积层会得到什么呢?首先,我们并入了三个ReLU激活函数,而不是一个,这使决策功能的分辨力更强。 其次,我们减少参数的数量:假设三层3×3卷积层相叠的输入和输出都具有C个通道,则该叠层参数化为3×(32C2)=27C2个权重; 同时,一个7×7 卷积层需要72C2=49C2参数,参数增加81%。 这可以被看作是在7×7卷积中实施正规化, 迫使他们通过3×3卷积核进行分解(两者之间注入非线性)。

Training

  • 优化方法:带动量(momentum)的小批量梯度下降
  • batch size:256
  • learning rate:0.01
  • momentum:0.9
  • weight decay(L2惩罚乘子):5×10-4
  • dropout rate(前两个全连接层):0.5
  • 目标函数:SoftMax
  • 迭代次数:37万次iteration(74 epochs)后,停止训练

尽管与(Krizhevsky et al.,2012)相比,网络的参数数量更多,网络深度也更大,但能用更少的迭代次数来实现收敛,推测是由于:

  • (a)更大深度和更小卷积核所带来的隐式正则化;
  • (b)某些图层的预初始化。

训练尺度S的两种方法:

  1. 第一种方法是固定S,这对应于单尺度训练。 实验中评估了以两个固定尺度训练的模型:S = 256和S = 384。
  2. 第二种方法是多尺度训练,其中通过从特定范围[Smin,Smax](Smin = 256,Smax = 512)随机采样S来单独重新调整每个训练图像。 由于图像中的物体可能具有不同的大小,因此在训练时考虑到这一点是有益的。

Testing

测试阶段先对输入图像的短边rescale到预设尺度Q(测试图像的尺度),测试图像的尺寸Q和训练图像的尺寸 S 没必要完全一样。后文中作者提到对于每个训练图像的尺寸S,都有几个不同的Q来去预测,可以得到更好地性能。

Conclusion

主要贡献在于:

  1. 表明网络的深度是良好性能的关键组成部分。
  2. 最佳网络包含16个卷积/光纤通道层,具有极其均匀的体系结构,从头到尾只执行3×3卷积和2×2池。
  3. 卷积可代替全连接。
  4. VGGNet的一个缺点是评估成本更高,并且使用更多的内存和参数(140m)。这些参数中的大多数都位于第一个完全连接的层中,此后发现可以移除这些FC层,而不会降低性能,从而显著减少了必要参数的数量。

你可能感兴趣的:(paper,计算机视觉,图像识别,卷积,网络)