论文学习(二)

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

2016/05/20 剩section 4

摘要

    卷积网络中深度对大规模图像识别准确率的影响。在权值层达到16-19层时有significant的提高。

1 介绍

    其他参数不变,用3*3 filter增加卷积层深度,结果是得出了一个准确率更高的结构,也适用于其他数据集。

    sec 2 描述卷积网络configuration,训练的details和evaluation在sec 3,configurations 对比在sec 4,sec 5是结论。

 

2 卷积网络配置

    general的在2.1,specific的在2.2,怎么得出来的在2.3

    2.1 结构

    input: 224*224 rgb

    先通过a stack of conv. layers,然后通过三个fully connected layers(前两个4096个通道,第三个1000个),最后加一个soft-max layer。所有隐藏层都配relu,所有层都不用lrn(局部响应归一化)(不进步提高performance还消耗memory和computation time)

    2.2 configurations

    表1每列为一种配置方式,表2表示每种配置所需要参数

论文学习(二)_第1张图片    

表1 ConvNet配置表

表2 不同配置所需要的参数(单位:M)

    2.3 discussion

    我们的configuration和前两年的很不一样。他们第一层用7*7,我们全用3*3,很容易看出用两层3*3和用一层5*5感受野相当,三层这个和一层7*7感受野相当。全用3*3这样做得到两点:

    1、让决策函数更加好

    2、减少参数

    用1*1可以增强决策函数的非线性但是不用影响卷积层的感受野。

3 分类框架

    详细描述分类卷及网络的训练和评价。

    3.1 训练

    初始的network weights很重要。

    为了得到224*224,randomly crop了图片。扩张图片用了12年的方法(水平翻转什么的)。训练图片的rescaling如下:

    两种方法设置training scale。第一种方法是固定s。第二种方法是multi-scale training 。速度原因,fine-tune了single-scale model 的配置,with s=384。

    3.2 测试

    First, it is isotropically rescaled to a pre-defined smallest image side, denoted as Q 

   Then, the network is applied densely over the rescaled test image in a way similar to (Sermanet et al., 2014). 

    Finally, to obtain a fixed-size vector of class scores for the image, the class score map is spatially averaged     

    3.3 实现细节

    提速3.75倍,4 gpu, 2-3周。

4 分类实验

    数据集。是在ILSVRC-2012的数据集,1.3M训练集,50K校验,100K测试集进行测试

    4.1 SINGLE SCALE EVALUATION 

    4.2 MULTI-SCALE EVALUATION 

    4.3 MULTI-CROP EVALUATION 

    4.4 CONVNET FUSION 

    4.5 COMPARISON WITH THE STATE OF THE ART 

5 结论

    本文评估了一个非常深的卷积神经网络(up to 19层),证明深度有利于分类的准确性,state of art的performance可以通过大量增加训练深度获得。我们的结果再次证明了视觉表示中深度的重要性。

 

 

 

 

 

转载于:https://my.oschina.net/kathy00/blog/678279

你可能感兴趣的:(论文学习(二))