Day1-学习笔记VGG

一、多分支结构(多路分支)

原理:加上不同分支应用不同卷积核,能获得不同感受野。其允许原始输入信息直接传到后面的层中,这样的话这一层的神经网络可以不用学习整个的输出,而是学习上一个网络输出的残差。且网络的层数越多,意味着能够提取到不同level的特征越丰富。而越深的网络提取的特征越抽象,越具有语义信息。但如果简单地增加深度,会导致梯度弥散或梯度爆炸(退化),因此提出深度残差网络 ResNet。
Day1-学习笔记VGG_第1张图片
优点:更容易优化,并且能够通过增加相当的深度来提高准确率。
缺点:因为需要保存中间结果,所以显存占有量会明显增高,只有到多路融合时,显存会会降低。

二、感受野

定义:卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。也就是特征图上的一个点对应输入图上的区域。
- 为什么两层3x3的卷积核感受野为5x5,三层3x3的卷积核感受野为7x7呢?
答: 感受野计算公式:F(i)=(F(i+1)-1)xStride+Ksize
设:Stride=1,Feature map:F=1。
conv3x3(3):F=(1-1)x1+3=3
conv3x3(2):F=(3-1)x1+3=5
conv3x3(1):F=(5-1)x1+3=7
- 为什么使用3x3的卷积核?
1.3x3是最小的能够捕获像素八邻域信息的尺寸。
2.可以通过小尺寸卷积层的堆叠替代大尺寸卷积层,并且感受野大小不变。
3.减少卷积核参数,运算的复杂度,比一个大尺寸filter卷基层有更多的非线性。
举例:设输入输出通道为C,则使用7x7卷积所需参数:7x7xCxC=49C²
使用3个3x3卷积所需参数:3x3xCxC+3x3xCxC+3x3xCxC=27C²

- 为什么使用1x1的卷积核?
1.降维(缩放通道数)
2.增加网络的非线性,使得网络可以表达更加复杂的特征。
3.减少卷积核参数和运算的复杂度,减少计算量。
同理举例:Day1-学习笔记VGG_第2张图片

三、VGG(Visual Geometry Group)

亮点:基本上都用的是3 * 3的卷积核以及 2 * 2的max pooling。完美的利用了conv 3x3的优点。

  • 网络结构:Day1-学习笔记VGG_第3张图片

以VGG16为例解释网络结构:Day1-学习笔记VGG_第4张图片
结论:卷积层仅改变深度即通道数channel,池化层pooling仅改变高度和宽度。
这边推荐一位b站博主:霹雳吧啦Wz

四、术语

  • FLOPS:FLOPS(Floating-point Operations Per Second),即每秒所能够进行的浮点运算数目。常常用来形容GPU的运算性能。
  • FLOPs :FLOPs (floating point of operations),是浮点运算次数,可以用来衡量算法/模型复杂度。

如有错误欢迎各位同学批评指正


你可能感兴趣的:(学习笔记,深度学习,神经网络)