笔记:计算机视觉与深度学习-北邮-鲁鹏-2020年录屏-第十讲

笔记:计算机视觉与深度学习-北邮-鲁鹏-2020年录屏

写在开头(重复的)

1.课程来源:B站视频.
2.笔记目的:个人学习+增强记忆+方便回顾
3.时间:2021年4月18日
4.同类笔记链接:(钩子:会逐渐增加20210428)
第一讲.第二讲.第三讲.第四讲.第五讲.第六讲.第七讲.第八讲.第九讲.第十讲.第十一讲.番外篇一个简单实现.第十二讲.第十三讲.第十四讲完结.
5.请一定观看视频课程,笔记是对视频内容的有限度的重现和基于个人的深化理解。
6.注意符号 SS:意味着我的个人理解,非单纯授课内容,有可能有误哦。

—以下正文—

一、上节剩下的一点

(一)用1×1卷积进行压缩会损失信息吗?

笔记:计算机视觉与深度学习-北邮-鲁鹏-2020年录屏-第十讲_第1张图片

  • 1.答:不会。思维不能局限于m×n×64经过32个卷积核卷积成了m×n×32的特征响应图组这件事。要去思考m×n×64这张图是从一个尺寸为a×b(a≥m,b≥n)的,要再×3(RGB三层)的,总体来说是a×b×3的图。他在压缩成m×n×64时,该发生的损失已经发生了,而且深度从3变成64,说明这个方向上的信息非常稀疏。在经过本层变换m×n×64变成m×n×32,信息依旧是稀疏的,所以说这种压缩不会丢失信息。

二、ResNet(残差网络)(17:00)

(一)实验:持续叠加网络的层数会发生什么?

笔记:计算机视觉与深度学习-北邮-鲁鹏-2020年录屏-第十讲_第2张图片

  • 1.结果显示,从20层增加到56层,在测试集上会显著增加错误率,人们猜测是过拟合造成的。但同时,在训练集上也有层数越多错误率越高的现象,这不是过拟合可以造成的。
  • 2.经研究,人们认为这是训练过程中网络正反向信息流通不畅,网络没有被充分训练造成的。

(二)ResNet的主要贡献

  • 1.提出了一种残差模块,通过堆叠残差模块可以构建任意深度的神经网络,而不会出现“退化”现象。
  • 2.提出了批归一化方法来对抗梯度消失,该方法降低了网络训练过程中对于权重初始化的依赖。
  • 3.提出了一种针对ReLU激活函数的初始化方法。

(三)残差模块

  • 1.思路:假设我的浅层网络已经学习好了有效的分类模式,如何再堆叠更多的新层建立更深的网络,使其满足即使不能提升网络的性能,也不应降低其性能。
  • 2.实现方法:建立残差结构。假设残差模块和其内部卷积层的输入为X,卷积层输出的是F(X),整个残差曾输出的H(X),则有如下公式:
  • 2.1 H(X) = F(X) + X
  • 2.2其中F(X)可能是什么也不做的,既F(X) = 0。
    笔记:计算机视觉与深度学习-北邮-鲁鹏-2020年录屏-第十讲_第3张图片
  • 2.3既,如上结构首先避免了更深卷积层对正向信息传递的损害。
  • 3.如上结构还解决了梯度方向传递中,梯度消失的问题。
  • 3.1若是没有直接传递的X,既只保留H(X) = F(X)。那么在由上层向本层的梯度传递过程中,一旦F(X)对x的偏导趋近于零,则梯度会消失。
  • 笔记:计算机视觉与深度学习-北邮-鲁鹏-2020年录屏-第十讲_第4张图片
  • 若是H(X) = F(X) + X,H的偏导至少等于F的偏导加1。当F的偏导为0是,在传递过程中,最起码上层的偏导数的值能不至于消失。
  • 4.这种结构保证了正向、反向信息流的畅通传递,也为叠加更深的网络层次提供了基础。
  • 5.为什么叫残差网络
    笔记:计算机视觉与深度学习-北邮-鲁鹏-2020年录屏-第十讲_第5张图片
  • 6.降低D和恢复D(应用两个1×1卷积层)
    -笔记:计算机视觉与深度学习-北邮-鲁鹏-2020年录屏-第十讲_第6张图片

三、视觉识别(新的一章)

(一)任务有哪些

  • 1.分类
  • 2.语义分割
  • 3.目标检测
  • 4.实例分割笔记:计算机视觉与深度学习-北邮-鲁鹏-2020年录屏-第十讲_第7张图片

(二)语义分割

  • 1.给每个像素分配类别标签,不区分实例,只考虑像素类别。像牛1与牛2就没有区分出来
    笔记:计算机视觉与深度学习-北邮-鲁鹏-2020年录屏-第十讲_第8张图片
  • 2.语义分割思路:全卷积 (全,体现在图像尺寸,也体现在没有全连接网络)
    笔记:计算机视觉与深度学习-北邮-鲁鹏-2020年录屏-第十讲_第9张图片
  • 3.全卷积的问题,图片尺寸不缩小,为控制计算规模,中间的卷积核个数就不能太多,而且计算速度太慢。因此提出了先缩小图片(称为下采样——、再放大图片(称为上采样)的方法。
    • 3.1下采样的方法很多,比如以前的POOL,或者卷积时设置步长不为1.
    • 3.2上采样的方法没学过,新提出了Nearest Neighbor(复制已有的值填到空缺处)、Bed of Nails(空位填0)、IndexPooling(原先POOL从哪去,现在填回哪里,空位补0)。但上述三种方法不常用,不多解释。
    • 3.3上采样方法-可学习的上采样:转置卷积(Transpose Convolution)
    • 视频精华(75:00)笔记:计算机视觉与深度学习-北邮-鲁鹏-2020年录屏-第十讲_第10张图片
    • 其中左为下采样(缩小)、右为上采样(放大)。左右的xyz不相等,只是借用相同符号表示。
    • 所谓转置,就是指左右矩阵的形式是转置的

四、目标检测任务

笔记:计算机视觉与深度学习-北邮-鲁鹏-2020年录屏-第十讲_第11张图片

你可能感兴趣的:(学习笔记-CV,计算机视觉)