【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记

计算机视觉与深度学习-06-图像分割-北邮鲁鹏老师课程笔记

  • 视觉识别任务
  • 语义分割
    • 语义分割定义
    • 语义分割思路(滑动窗口)
      • 滑动窗口缺点
    • 语义分割思路(全卷积)
      • 全卷积优点
      • 全卷积缺点
      • 先下采样再上采样
        • 下采样算法
          • pooling(池化)
          • strided convolution
      • 上采样算法
          • unpooling(反池化)
            • nearest neighbor
            • bed of nails
            • unpooling缺点
        • index pooling(反池化)
          • 方式一(固定写死)
            • max unpooling(反池化)
          • 方式二(自动学习)
            • 转置卷积(Transpose Convolution)
        • 卷积与矩阵相乘(一维例子)
          • 步长1
            • 下采样
            • 上采样
          • 步长2
        • UNET

视觉识别任务

【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记_第1张图片在这里插入图片描述

语义分割

语义分割定义

给每个像素分配类别标签。

不区分实例,只考虑像素类别。
【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记_第2张图片

语义分割思路(滑动窗口)

【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记_第3张图片

滑动窗口缺点

重叠区域的特征反复被计算,效率很低。

所以针对该问题提出了新的解决方案–全卷积。

语义分割思路(全卷积)

让整个网络只包含卷积层,一次性输出所有像素的类别预测。
【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记_第4张图片

全卷积优点

不用将图片分为一个个小区域然后再对这一个个小区域进行分类,而是一次性输出像素的类别预测,减少了重叠区域重复计算,从而减少了运算量,加快了运算速度。

全卷积缺点

1 处理过程中一直保持原始分辨率,即卷积过程中一直保持图片长宽不变。对于显存的需求会非常庞大,甚至使得前向数据不能完整的保存在显存中。

针对这个问题,提出了先下采样然后上采样。

2 上采样是根据下采样得到的高级语义得到的,但是有时候高级语义效果并不好,还需要使用低级语义。

针对这个问题,提出了Unet,将下采样过程中的低级语义整合到上采样过程中,从而使得效果更好。

先下采样再上采样

【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记_第5张图片

下采样算法

pooling(池化)
strided convolution

上采样算法

unpooling(反池化)
nearest neighbor
bed of nails

【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记_第6张图片

unpooling缺点

人为给定的像素值可能是噪声。
人为给定的非0像素值可能原来并不在当前位置。

针对这些问题,提出了反池化操作思想–index Unpooling。

index pooling(反池化)

方式一(固定写死)

下采样时对提取的像素做索引标记,上采样时,将结果根据索引标记赋给原来提取像素的位置。

max unpooling(反池化)

【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记_第7张图片

方式二(自动学习)
转置卷积(Transpose Convolution)

【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记_第8张图片【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记_第9张图片

卷积与矩阵相乘(一维例子)

[x,y,z]为卷积核,

步长1
下采样

【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记_第10张图片

上采样

【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记_第11张图片

步长2

【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记_第12张图片

UNET

上采样是根据下采样得到的高级语义得到的,但是有时候高级语义效果并不好,还需要使用低级语义。

针对这个问题,提出了Unet,将下采样过程中的低级语义整合到上采样过程中,从而使得效果更好。
【计算机视觉】计算机视觉与深度学习-06-语义分割-北邮鲁鹏老师课程笔记_第13张图片

你可能感兴趣的:(#,计算机视觉,深度学习,人工智能)