VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
2016/05/20 剩section 4
摘要
卷积网络中深度对大规模图像识别准确率的影响。在权值层达到16-19层时有significant的提高。
1 介绍
其他参数不变,用3*3 filter增加卷积层深度,结果是得出了一个准确率更高的结构,也适用于其他数据集。
sec 2 描述卷积网络configuration,训练的details和evaluation在sec 3,configurations 对比在sec 4,sec 5是结论。
2 卷积网络配置
general的在2.1,specific的在2.2,怎么得出来的在2.3
2.1 结构
input: 224*224 rgb
先通过a stack of conv. layers,然后通过三个fully connected layers(前两个4096个通道,第三个1000个),最后加一个soft-max layer。所有隐藏层都配relu,所有层都不用lrn(局部响应归一化)(不进步提高performance还消耗memory和computation time)
2.2 configurations
表1每列为一种配置方式,表2表示每种配置所需要参数
表1 ConvNet配置表
表2 不同配置所需要的参数(单位:M)
2.3 discussion
我们的configuration和前两年的很不一样。他们第一层用7*7,我们全用3*3,很容易看出用两层3*3和用一层5*5感受野相当,三层这个和一层7*7感受野相当。全用3*3这样做得到两点:
1、让决策函数更加好
2、减少参数
用1*1可以增强决策函数的非线性但是不用影响卷积层的感受野。
3 分类框架
详细描述分类卷及网络的训练和评价。
3.1 训练
初始的network weights很重要。
为了得到224*224,randomly crop了图片。扩张图片用了12年的方法(水平翻转什么的)。训练图片的rescaling如下:
两种方法设置training scale。第一种方法是固定s。第二种方法是multi-scale training 。速度原因,fine-tune了single-scale model 的配置,with s=384。
3.2 测试
First, it is isotropically rescaled to a pre-defined smallest image side, denoted as Q
Then, the network is applied densely over the rescaled test image in a way similar to (Sermanet et al., 2014).
Finally, to obtain a fixed-size vector of class scores for the image, the class score map is spatially averaged
3.3 实现细节
提速3.75倍,4 gpu, 2-3周。
4 分类实验
数据集。是在ILSVRC-2012的数据集,1.3M训练集,50K校验,100K测试集进行测试
4.1 SINGLE SCALE EVALUATION
4.2 MULTI-SCALE EVALUATION
4.3 MULTI-CROP EVALUATION
4.4 CONVNET FUSION
4.5 COMPARISON WITH THE STATE OF THE ART
5 结论
本文评估了一个非常深的卷积神经网络(up to 19层),证明深度有利于分类的准确性,state of art的performance可以通过大量增加训练深度获得。我们的结果再次证明了视觉表示中深度的重要性。