论文阅读——VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

前言

之前有一段时间看了挺多深度学习方面的论文,但是由于时间方面的问题一直没来得及进行总结。最近一段时间突发奇想把自己看论文时的学习笔记给记录一下,由于之前没写过博文,所以排版可能会有点emmm...一言难尽。专业方面的知识,如果有理解不到位的地方欢迎各位大佬指教。

ABSTRACT

文章的主要工作:

  1. 研究了卷积网络深度在大规模的图像识别环境下对准确性的影响。
  2. 使用非常小的卷积核(3×3)架构对网络深度的增加进行了全面评估。

1、INTRODUCTION

在该部分作者主要是提到了近些年来图像识别方面的发展和卷积网络的发展方向。

1、大规模图像和视频识别方面取得巨大成功的因素:

  • 大型公开图像存储库的出现,例如ImageNet。
  • 高性能计算系统的出现,例如GPU或大规模分布式集群。

2、近些年卷积网络改进的思路:

  • 使用更小的感受野窗口尺寸和更小步长的第一卷积层(Zeiler & Fergus, 2013; Sermanet et al., 2014)。
  • 在整个图像和多个尺度上对网络进行密集地训练和测试(Sermanet et al., 2014; Howard, 2014)。
  • 使用非常小的卷积核(3×3),并添加更多的卷积层来稳定地增加网络的深度(本篇文章中提到的思想)。

2、CONVNET CONFIGURATIONS

这一章中2.1节描述VGG网络配置的通用设计,然后在2.2节中详细说明评估使用的具体配置。最后在2.3节进行讨论并与现有技术进行比较。

2.1、架构

  1. 输入:固定大小的224×224 RGB图像;预处理:将每个像素减去训练集的RGB均值。
  2. 卷积核大小:3×3;卷积步长为1。
  3. 空间池化:使用最大池化层,窗口为2×2,步长为2。
  4. 所有隐藏层都配有一个ReLU激活函数。
  5. 尾部:三个全连接层和一个softmax层,前两个全连接层输入输出都为4096通道,最后一个全连接层输出为1000通道(对ILSVRC比赛中的1000个类进行分类)。

2.2、配置

  • 为了实验需要,文章中对VGG网络设置了不同版本(A-E),从A到E版本卷积网络的深度不断增加,网络复杂度也不断提升。

论文阅读——VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION_第1张图片 VGG网络的A-E版本,每个隐层后都有一个ReLU激活函数(表中未标出)
卷积层参数表示为conv〈卷积核大小〉-〈通道数〉

2.3、讨论

  • 文章中还对比了深层、小感受域(卷积核尺寸小)卷积网络和浅层、大感受域卷积网络的参数数量。比如文章中提到,对于3个3×3卷积层构成的结构块和单个7×7卷积层,假设其通道都为C,则3个3×3卷积层构成的结构块总参数数为27C^{^{2}},而单个7×7卷积层的总参数数目为49C^{^{2}}。很明显,深层、小感受域网络所需要的运算量更少。
VGG网络A-E版本的参数数目(百万级别)

3、CLASSIFICATION FRAMEWORK

3.1、训练

1、训练参数的设置:

  • 批量大小为256,动量为0.9。
  • 学习率初始设定为10^{-2},学习率总共降低3次,学习在37万次迭代后停止(74个epochs)。
  • 网络权重的初始化主要有两种不同方式:1.先对较浅的A网络进行训练,然后在训练其他网络时,使用训练过的A网络权重初始化。2.随机初始化:从均值为0、方差为10^{-2}的正态分布中随机采样作为权重。
  • 数据增强方法:从训练图像中随机裁剪出大小为224×224的固定图像,并进行随机水平翻转和随机RGB颜色偏移。

2、训练图像大小

  • 设置S为训练尺度,VGG网络的输入图像根据S进行裁剪。原则上S可以是不小于224的任何值。

3、S的设置思路:

  1. 使用固定S尺度进行训练。
  2. 多尺度训练:每个训练图像通过从一定范围[Smin,Smax]随机采样S来单独进行归一化,训练多尺度模型。

3.2、测试

  • 将输入图像等轴归一化到预定义的最小图像边Q(测试尺度),Q不一定等于训练尺度S。
  • 全连接层被转换成卷积层,第一个FC层转换到7×7卷积层,最后两个FC层转换到1×1卷积层。然后将所得到的全卷积网络应用于整个(未裁剪)图像上。

3.3、实现细节

  • 将每批训练图像分成几个GPU批次,每个GPU并行处理。
  • 在计算得到不同GPU批次的梯度之后,将其平均以获得完整批次的梯度。

4、CLASSIFICATION EXPERIMENTS

  • 数据集:ILSVRC-2012数据集,包括1000个类别的图像,并分为三组:训练集(130万张图像)、验证集(5万张图像)和测试集(10万张图像)。
  • 分类性能评估:1.top-1错误率:没有被正确分类图像的比例。2.top-5错误率:图像真实类别在前5个预测类别之外的比例。

4.1、单尺度评估

该部分评估的是单个VGG网络模型在单尺度上的性能。对于固定的S,令Q=S;对于抖动的S\in \left [ S_{min},S_{max}\right ],令Q=0.5(Smin+Smax),结果如下。

论文阅读——VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION_第2张图片

从单尺度评估的结果可以看出:

  • A网络和A-LRN网络的错误率相差不大,因此局部响应归一化网络(LRN)对模型的准确率没有太大改善。
  • 分类误差随着ConvNet深度的增加而减小,小滤波器的深层网络优于具有较大滤波器的浅层网络。

4.2、多尺度评估

该部分评估的是单个VGG网络模型在多尺度上的性能,每次测试取不同的Q值,最后将所得到的类别后验进行平均。对于固定S训练的模型,取Q = {S−32, S, S+32};对于抖动的S\in \left [ S_{min},S_{max}\right ],取Q = {Smin, 0.5(Smin + Smax), Smax}。

论文阅读——VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION_第3张图片

结论:

  • 使用尺度抖动最小边S训练的网络优于使用固定最小边S训练的网络。

4.3、多裁剪图像评估

这一部分将使用了密集评估与多裁剪图像评估的网络进行比较。

论文阅读——VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION_第4张图片

结论:

  • 使用多裁剪图像的网络表现比密集评估的网络略好。
  • 同时使用多裁剪图像和密集评估的网络可以达到最优的结果。

4.4、卷积网络融合

在这部分实验中,作者通过对soft-max输出类别后验概率进行平均,结合了几种不同VGG网络模型的输出。由于模型的互补性,提高了总体性能。

论文阅读——VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION_第5张图片 多卷积网络融合结果

4.5、和最先进网络比较

论文阅读——VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION_第6张图片

5、CONCLUSION

  • 评估了非常深的卷积网络(最多19个权重层)用于大规模图像分类的性能。
  • 证明了卷积网络深度的提升有利于分类精度的提升。

 

你可能感兴趣的:(论文阅读——VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION)