一.背景介绍
vggnet是由牛津大学视觉几何组和 google deepmind 共同研发的模型。该模型在2014 Image大赛上取得了分类任务的亚军和定位任务的冠军。其最主要的特点是:由3*3的卷积核和2*2的最大池化构成模型的主干网络。
二.网络结构
1.vggnet根据权重层层数的不同,可以分为A,B,C,D,E,F五种模型。
2.以上每个类别都将卷积层分为5组,每组的个数一般由1-4个卷积层组成,每组卷积后面2*2的最大池化层,因此共有5个池化层。
3.网络C和网络D的不同之处在于用了3个1*1的卷积核,因此网络C比较异类,当前用的不多了。
4.除最后一个全连接层外,所有的全连接层和卷积层后面都接relu进行激活。
三.评价:
1.证明的使用小的卷积核增加网络深度的可能性
2.作者曾在vgg11中增加了局部归一化操作,但这一操作对模型的效果提升有限。
3.使用3*3卷积核的好处:
1)使用3*3的卷积核是能够获取图像上下左右中心信息的最小卷积核。
2)两个3*3的卷积核堆叠相当于一个5*5的卷积核的视野,三个3*3的卷积核堆叠相当于一个7*7的卷积核的视野
(1)拥有更小的参数
(2)相当于组合了多个线性层,这样使得决策函数识别性更强。