语义分割-PSPNet

Pyramid Scene Prasing Network 论文笔记

  • Pyramid Scene Prasing Network
    • 写作背景
    • 所提出的解决办法
    • 网络结构
    • Deep Supervision for ResNet-Based FCN
    • 实验设置以及实验结果

Pyramid Scene Prasing Network

基于FCN全卷积网络的分割面临诸多问题,这篇文章从多尺度入手,提出了金字塔模型来提取多尺度的信息,达到了 State-of-the-art 的结果

论文:PSPnet:Pyramid Scene Parsing Network [论文下载]

写作背景

现阶段语义分割任务中存在的一些问题:

  1. Mismatched Relationship: ,比如“车”出现在以河流为主的图像中;
  2. Confusion Categories:图片标注的过程中难免会出现形容词相近的label,比如skysctaperbuilding
  3. Inconspicous Classes:容易忽视可以产生重要影响的小物体以及由于感受野不够大而忽视大物体;

所提出的解决办法

作者认为这些误分割都可以通过引入更多的上下文信息进行解决,当分割层有更多全局信息时,出现上述几种误分割的概率就会相对低一些,这种思想目前在许多图像领域都有所应用,而引入更多上下文信息的方式也很多,比如:
1、增大分隔层的感受野,这种方式是最直观的,视野越广,看到的东西也越多,而增大感受野也有许多方式,比如空洞卷积(dilated convolution),这是在deeplab算法上成功应用的实现方式,另外PSPNet的全局均值池化操作也是增加感受野的一种方式。
2、深层特征和浅层特征的融合,增加浅层特征的语义信息,这样在浅层进行分割时就有足够的上下文信息,同时也有目标的细节信息,这种做法早在FCN中就有了,但是包括融合策略和分割层的选择都有一定的优化空间。

网络结构

语义分割-PSPNet_第1张图片

首先输入图像经过一个特征提取网络提取特征,这部分作者采用的是添加了空洞卷积的ResNet网络,空洞卷积的作用前面也提到过了,主要是增大感受野,提取到的特征(具体而言stride=8)作为后面pyramid pooling模块的输入。在pyramid pooling模块中构建了深度为4的特征金字塔,不同深度的特征是基于输入特征通过不同尺度的池化操作得到的,池化的尺度是可以调整的,这篇文章中给出的池化后的特征尺寸分别是 1 ∗ 1 {1}*{1} 11 2 ∗ 2 {2}*{2} 22 3 ∗ 3 {3}*{3} 33 6 ∗ 6 {6}*{6} 66。然后通过一个 1 ∗ 1 {1}*{1} 11卷积层将特征维度缩减为原来的 1 / 4 {1}/{4} 1/4,最后将这些金字塔特征直接上采样到与输入特征相同尺寸,然后和输入特征做合并,也就是concat操作得到最终输出的特征图。
特征合并的过程其实就是融合目标的细节特征(浅层特征)和全局特征(深层特征,也就是上下文信息)的过程,这里因为特征提取网络最后输出的特征层感受野足够大,所以有足够的全局信息(虽然网络的深度不算深)。

Deep Supervision for ResNet-Based FCN

随着网络深度的加深,会出现梯度弥散的情况。ResNet通过加入skip connection来解决这个问题。作者反过来建议通过监督产生额外损失的初始结果,然后在最终损失后学习residue。 因此,深度网络的优化被分解为两个,每个都更容易解决。
语义分割-PSPNet_第2张图片

实验设置以及实验结果

见论文

你可能感兴趣的:(语义分割)