图像识别-VGGNet论文笔记

个人微信公众号:AI研习图书馆,欢迎关注~

深度学习知识及资源分享,学习交流,共同进步~

论文题目:Very Deep Convolutional Networks for Large-scale Image Recognition

1.引言

这篇文章主要探究了在大规模图像识别任务中,卷积网络深度对模型准确度的影响。使用带有非常小(3×3)卷积滤波器的体系结构对深度增加的网络进行全面评估。

VGG论文给出了一个非常振奋人心的结论:卷积神经网络的深度增加和小卷积核的使用对网络的最终分类识别效果有很大的作用。记得在AlexNet论文中,最后也指出了网络深度的增加对最终的分类结果有很大的作用。这篇论文则更加直接的论证了这一结论。

2. 网络结构

图像识别-VGGNet论文笔记_第1张图片

3. 论文总结

这篇文章提出了相对于AlexNet更深的网络模型,并且通过实验发现网络越深性能越好(在一定范围内)。

在网络中,使用了更小的卷积核(3x3),stride为1,同时不单单的使用卷积层,而是组合成了“卷积组”,即一个卷积组包括2-4个3x3卷积层,有的层也有1x1卷积层,因此网络更深,网络使用2x2的max pooling,在full-image测试时候把最后的全连接层改为全卷积层,重用训练时的参数,使得测试得到的全卷积网络因为没有全连接的限制,因而可以接收任意宽或高为的输入。

另外VGGNet卷积层有一个显著的特点:特征图的空间分辨率单调递减,特征图的通道数单调递增,这是为了更好地将HxWx3(1)的图像转换为1x1xC的输出,之后的GoogLeNet与Resnet都是如此。另外文章中4个VGG训练时参数都是通过pre-trained 网络A进行初始赋值。在VGG不同版本的网络模型,较为流行的是VGG-16,与VGG-19。

VGG-Net与GoogLe-Net的对比总结:GoogLeNet和VGG的分类模型从原理上并没有与传统的CNN模型有太大不同。大家所用的Pipeline也都是:训练时候:各种数据Augmentation(剪裁,不同大小,调亮度,饱和度,对比度,偏色),剪裁送入CNN模型,Softmax,Backprop。测试时候:尽量把测试数据又各种Augmenting(剪裁,不同大小),把测试数据各种Augmenting后在训练的不同模型上的结果再继续Averaging出最后的结果。

图像识别-VGGNet论文笔记_第2张图片

你可能感兴趣的:(图像识别)