论文学习（二）

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

2016/05/20 剩section 4

摘要

卷积网络中深度对大规模图像识别准确率的影响。在权值层达到16-19层时有significant的提高。

1 介绍

其他参数不变，用3*3 filter增加卷积层深度，结果是得出了一个准确率更高的结构，也适用于其他数据集。

sec 2 描述卷积网络configuration，训练的details和evaluation在sec 3，configurations 对比在sec 4，sec 5是结论。

2 卷积网络配置

general的在2.1，specific的在2.2，怎么得出来的在2.3

2.1 结构

input: 224*224 rgb

先通过a stack of conv. layers，然后通过三个fully connected layers（前两个4096个通道，第三个1000个），最后加一个soft-max layer。所有隐藏层都配relu，所有层都不用lrn（局部响应归一化）（不进步提高performance还消耗memory和computation time）

2.2 configurations

表1每列为一种配置方式，表2表示每种配置所需要参数

表1 ConvNet配置表

表2 不同配置所需要的参数（单位：M）

2.3 discussion

我们的configuration和前两年的很不一样。他们第一层用7*7，我们全用3*3，很容易看出用两层3*3和用一层5*5感受野相当，三层这个和一层7*7感受野相当。全用3*3这样做得到两点：

1、让决策函数更加好

2、减少参数

用1*1可以增强决策函数的非线性但是不用影响卷积层的感受野。

3 分类框架

详细描述分类卷及网络的训练和评价。

3.1 训练

初始的network weights很重要。

为了得到224*224，randomly crop了图片。扩张图片用了12年的方法（水平翻转什么的）。训练图片的rescaling如下：

两种方法设置training scale。第一种方法是固定s。第二种方法是multi-scale training 。速度原因，fine-tune了single-scale model 的配置，with s=384。

3.2 测试

First, it is isotropically rescaled to a pre-defined smallest image side, denoted as Q

Then, the network is applied densely over the rescaled test image in a way similar to (Sermanet et al., 2014).

Finally, to obtain a fixed-size vector of class scores for the image, the class score map is spatially averaged

3.3 实现细节

提速3.75倍，4 gpu， 2-3周。

4 分类实验

数据集。是在ILSVRC-2012的数据集，1.3M训练集，50K校验，100K测试集进行测试

4.1 SINGLE SCALE EVALUATION

4.2 MULTI-SCALE EVALUATION

4.3 MULTI-CROP EVALUATION

4.4 CONVNET FUSION

4.5 COMPARISON WITH THE STATE OF THE ART

5 结论

本文评估了一个非常深的卷积神经网络（up to 19层），证明深度有利于分类的准确性，state of art的performance可以通过大量增加训练深度获得。我们的结果再次证明了视觉表示中深度的重要性。

论文学习（二）

你可能感兴趣的:(论文学习（二）)