图像分割笔记

文章目录

    • 一、图像分割模型
      • FCN
      • SetNet
      • DeepLab
      • ReSeg模型
    • 二、基础知识
      • 1. 转置卷积
      • 2. 空洞卷积

一、图像分割模型

参考:https://zhuanlan.zhihu.com/p/70758906

FCN

业界标杆

在FCN当中的反卷积-升采样结构中,图片会先进性上采样(扩大像素);再进行卷积——通过学习获得权值。

优缺点:

  • FCN对图像进行了像素级的分类,从而解决了语义级别的图像分割问题;
  • FCN可以接受任意尺寸的输入图像,可以保留下原始输入图像中的空间信息;
  • 得到的结果由于上采样的原因比较模糊和平滑,对图像中的细节不敏感;
  • 对各个像素分别进行分类,没有充分考虑像素与像素的关系,缺乏空间一致性。

SetNet

SegNet是剑桥提出的旨在解决自动驾驶或者智能机器人的图像语义分割深度网络,SegNet基于FCN,与FCN的思路十分相似,只是其编码-解码器和FCN的稍有不同,其解码器中使用去池化对特征图进行上采样,并在分各种保持高频细节的完整性;而编码器不使用全连接层,因此是拥有较少参数的轻量级网络

SetNet的优缺点:

  • 保存了高频部分的完整性;
  • 网络不笨重,参数少,较为轻便;
  • 对于分类的边界位置置信度较低;
  • 对于难以分辨的类别,例如人与自行车,两者如果有相互重叠,不确定性会增加。

DeepLab

引入了空洞卷积,提高感受野

这样就解决了DCNN的几个关于分辨率的问题:
1)内部数据结构丢失;空间曾计划信息丢失;
2)小物体信息无法重建;

当然空洞卷积也存在一定的问题,它的问题主要体现在以下两方面

1)网格效应
加入我们仅仅多次叠加dilation rate 2的 3x3 的卷积核则会出现以下问题
我们发现卷积核并不连续,也就是说并不是所有的像素都用来计算了,这样会丧失信息的连续性;

2)小物体信息处理不当
我们从空洞卷积的设计背景来看可以推测出它是设计来获取long-ranged information。然而空洞步频选取得大获取只有利于大物体得分割,而对于小物体的分割可能并没有好处。所以如何处理好不同大小物体之间的关系也是设计好空洞卷积网络的关键。

ReSeg模型

ReSeg可能不被许多人所熟知,在百度上搜索出的相关说明与解析也不多,但是这是一个很有效的语义分割方法。众所周知,FCN可谓是图像分割领域的开山作,而RegNet的作者则在自己的文章中大胆的提出了FCN的不足:没有考虑到局部或者全局的上下文依赖关系,而在语义分割中这种依赖关系是非常有用的。所以在ReSeg中作者使用RNN去检索上下文信息,以此作为分割的一部分依据。

该结构的核心就是Recurrent Layer,它由多个RNN组合在一起,捕获输入数据的局部和全局空间结构。

优缺点:

  • 充分考虑了上下文信息关系;
  • 使用了中值频率平衡,它通过类的中位数(在训练集上计算)和每个类的频率之间的比值来重新加权类的预测。这就增加了低频率类的分数,这是一个更有噪声的分割掩码的代价,因为被低估的类的概率被高估了,并且可能导致在输出分割掩码中错误分类的像素增加。

二、基础知识

1. 转置卷积

一般在图像分割等场景中应用,图像上采样,并不是卷积的逆运算。

2. 空洞卷积

为什么要使用空洞卷积
语义分割任务中,通常会用分类网络作为backbone做一系列下采样,再做一系列上采样还原到原图大小。
下采样太厉害会对后续上采样有影响,如VGG中maxpool会丢失一些细节信息,不能还原,去掉maxpool层又会降低感受野

连续使用多个空洞卷积,需要设计膨胀系数:
每个膨胀系数都设为2,没有分别设为1、2、3的效果好;

你可能感兴趣的:(深度学习,笔记,计算机视觉,人工智能)