VGGNet论文总结思考

Very Deep Convolutional Networks for Large-scale Image Recognition(VGG-Net)

  • 论文简述
  • 论文要点
    • 网络结构
    • 训练过程
    • 测试过程
    • 评估结论
  • 思考

论文简述

本文探究了在大规模图像识别任务中,卷积网络深度对模型准确度的影响。使用带有非常小(3×3)卷积滤波器的体系结构对深度增加的网络进行全面评估。

论文要点

网络结构

VGGNet论文总结思考_第1张图片

  • 通用布局
    通用布局起到控制变量,各卷积层使用相同的原理设计,如卷积核大小,通道数,全连接层和softmax层等。每个隐层后均采用ReLU实现非线性。

  • 3×3 滤波器
    能够捕捉到上下左右概念的最小尺寸。
    两个3×3的卷积等同于5×5的卷积的感受野。采用3×3卷积核的优势:

    • 采用两次ReLu的非线性操作,提升判别函数的识别能力。
    • 减少参数数量
  • 1×1滤波器
    不改变卷积层的感受野的同时,增强判别函数的非线性(本身是线性映射,但ReLU函数赋予了额外的非线性)

训练过程

  • 图像等比缩放生成训练图片,最小边长为S(也成为训练尺寸)。每次SGD迭代时选中的训练图片进行裁剪,大小为224×224。
  • S可以为单尺寸,也可为多尺寸[Smin,Smax]。因为实际图像中物体具有不同的大小,多尺度可以将这部分考虑入,也可认为是通过尺寸抖动来扩充数据集

测试过程

  • 同理,有测试尺寸Q,Q不需要等于S,也可以采用尺寸抖动。
    对于固定S,取Q={S-32,S,S+32};对于变量S,取Q={Smin,0.5*(Smin+Smax),Smax}。
  • 密集评估(dense evaluation)
    将全连接层转换为卷积层,形成全卷积网络,并应用于整个测试图片上(不进行裁剪)。最终生成一个类分数映射,通道数等于类数,空间分辨率可变,取决于输入图像的大小。为获取固定尺寸的类分数,将类分数映射在空间上求平均。
  • 多裁剪评估(multi-crop evaluation)
    方式同训练过程,两种评估方式的主要区别在于不同的卷积边界条件:对于裁剪后的图像,卷积时特征图用0进行填充,而对于密集估计,可以认为特征图的填充是来自于图像的周边部分,从而增加网络的感受野。
    两者在一定程度上互补。

评估结论

  • 随着卷积网络深度的增加,误差率降低
  • 小滤波器的深层网络 的表现优于 大滤波器的浅层网络
  • 在训练集和测试集上的尺寸抖动都会使结果优于固定尺寸
  • 两种评估方式的融合和最优网络融合也可以提升结果表现
    VGGNet论文总结思考_第2张图片
    VGGNet论文总结思考_第3张图片
    VGGNet论文总结思考_第4张图片
    VGGNet论文总结思考_第5张图片

思考

  • 训练集和测试集的尺寸抖动会扩充数据集且提高准确度
  • 多种模型和方法融合,效果可能会更好

你可能感兴趣的:(深度学习论文)