【Imagenet LSVRC系列模型】VGGnet-2014 Very deep convolutional networks for large-scale image recognition

Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

2014年ImageNet 图像分类第二名,物体检测第一名。

论文主要贡献:

1:分别训练了深度从11-19的ABCDE五个网络模型(图1),探究了深度对CNN效果的影响,发现模型越深,效果越好。

2、采用小卷积核(3*3)代替大卷积核(5*5或7*7):

(1)多个小卷积核堆叠非线性激活带来的非线性效果强于单一的一个大卷积核非线性激活。

(2)假设前后层feature map 通道数都为C,两个3*3卷积的感受野与一个5*5卷积的感受野一样,但前者参数量为C*C*3*3*2,后者参数量为C*C*5*5,后者较大。由此降低参数量。

3、训练时,增强训练数据集在尺度方面的多样性(通过将训练图像缩放到一定scale范围),训练得到的模型,对于尺度变化的适应性更强。

4、测试时,将网络后面的全连接层换为卷积层,变成全卷积网络。对输入图像进行稠密式地分类,最后取平均分类结果。(以前一般的做法是,对输入图像先进行crop,得到多张图像,分别进行分类,取最后平均结果。而在这里,通过改为全连接网络,不需要先对输入图像进行crop,而直接输入网络进行分类,最后得到score map。score map 实际上就是多个crop的分类结果,直接取平均即可。这样做的好处一方面是节省计算量,另一方面,减少crop后,pad过程带来的信息损失。)

5、论文还通过实验证明,LRN对分类效果影响不大,反而增加了计算量。

6、通过训练多个模型进行ensemble,能使效果些许提升。

【Imagenet LSVRC系列模型】VGGnet-2014 Very deep convolutional networks for large-scale image recognition_第1张图片

图1  文中不同深度的网络模型结构及参数量

【Imagenet LSVRC系列模型】VGGnet-2014 Very deep convolutional networks for large-scale image recognition_第2张图片

图2  12年以来不同网络在ImageNet图像分类上的结果


你可能感兴趣的:(论文阅读)