【 深度学习----论文解读 】001. VGG

【 背景 】
VGG的全称是Oxford Visual Geometry Group的简称。该小组隶属于1985年成立的Robotics Research Group,该Group研究范围包括了机器学习到移动机器人。该团队斩获2014年ImageNet挑战赛分类第二(第一是GoogLeNet),定位任务第一。
数据集:1000个类别的ILSVRC-2012数据集(Large Scale Visual Recognition Challenge),其中:
训练集:130万张图片;
验证集:5万张图片;
测试集:10万张图片,这组数据的label没有给出(with held-out class labels)。
【 深度学习----论文解读 】001. VGG_第1张图片

【 摘要 】
论文的主要创新点在于:

  • 用小卷积核代替了55或者77的卷积核

  • 基于ALexnet加深了网络深度。

  • 采用多尺度评估预测训练集和验证集
    【 分类任务配置 】

  1. 输入图片最小尺寸2242243,这里注意有channel first和channel last问题,如果tensorflow backend,channel last。
    论文中对比实验单通道和多个尺寸随机切块(256,384)训练,发现多尺度训练结果的top-1和top-5error是最小的。

  2. 采用较小的Filter尺寸-33,stride=1。33是最小的能够捕获上下左右和中心概念的尺寸。

  3. Max-Pooling:2*2,stride=2;

  4. batch_size=256,momentum=0.9,dropout=0.5,优化器:SGD,学习率先初始化为0.001,当vali集上准确度不变,lr减小10倍。
    【 网络解读 】
    【 深度学习----论文解读 】001. VGG_第2张图片
    整个网络由Conv层,Maxpooling层以及FC层构成,分析一下每个层的作用:

  5. Conv:提取特征,如果一个卷积核为6433,那么它有64个通道,也就是会有64个feature会被提取。多个卷积核可以增加非线性,从而增大感受野。

  • 使用33Conv的原因:2个33的卷积核相当于一个55的卷积核,3个33的卷积核相当于一个77的卷积核。越大的卷积核,参数量越大,这时候体现出小卷积核的优势(3个33Conv的参数量27C^2)。
  • 使用1*1卷积核的原因:增加非线性,可降低featuremap维数,减少参数量。
  1. Maxpooling:池化做的事情是根据对应的max或者average方式进行特征筛选,还是在做特征工程上的事情。与此同时,下采样可以减小过拟合,有利于网络的加深和加宽。加深和加宽实际上是同时的,在添加Maxpooling之后,可以增大感受野,也允许加深网络。
  2. FC层:全连接层,拥有整个网络最大的参数量。将FC层初始化bias=0.1,std=0.005,是为了在反向传播的时候能动起来。在VGG网络中,FC的节点数对网络预测效果的影响不大。
  3. 另外还采用了多模型融合。
    【 深度学习----论文解读 】001. VGG_第3张图片
    【 定位 】未完待续
    【 参考 】
  4. 论文原文:https://arxiv.org/pdf/1409.1556.pdf
  5. 分解为一个个问题细致讲解:https://blog.csdn.net/qq_26591517/article/details/81071393
  6. https://blog.csdn.net/u011440696/article/details/77756776

你可能感兴趣的:(深度学习)