PSPNet语义分割网络

论文题目:Pyramid Scene Parsing Network

论文链接:https://arxiv.org/pdf/1612.01105.pdf

各位好,今天我给大家带来一篇关于图像语义分割领域文章。这是2017年发表在CVPR上的一篇文章。可以说是经典。为何这么说呢?不用急,我会在后续笔述中详细阐述。由于本人爱好,各位可能在本人博文的看到很多研究方向,有视频行为识别,图像分割,行为检测,图像分类,不过虽然多,但是我感觉都大同小异。好了,多余的话我就不说了,现在开始今天的正题。按照我写博客的习惯,我会先对文章进行整体介绍,然后介绍这个方向研究现状,接着是研究方法(这是论文的核心),最后是实验阶段,来说明所提出模型/架构的优越性。

这篇文章为何叫PSPNet呢?因为作者提出了一个模块,这个模块叫做Pyramid Pooling Module(金字塔池化模块),那么这个模块是作用是什么呢?可以将局部的上下文进行聚合,形成全局的上下文,更全面地实现定位和像素分类。语义分割要做的其实就是预测所关注对象的label,lacation和shape。该PSPNet是2016年ImageNet场景解析挑战赛的冠军,在PASCAL VOC 2012语义分割基准上排名第一,在Cityscapes数据上排名第一。最后说一下这篇文做的贡献:

  • 提出了一个金字塔场景解析网络,在基于FCN的像素预测框架中嵌入困难的场景上下文特征;
  • 提出了一种基于深度监督损失的深度ResNet的有效优化策略;
  • 构建了一个实用的场景解析和语义分割系统

接着笔述一下语义分割的研究现状吧。目前工作主要是基于卷积+反卷积实现语义分割框架进行改进,当然我今天笔述的这篇文章也是基于此,具体代表网络有UNet,FCN,Unet++等。另外研究工作包含两个主线,一种是多尺度特征嵌入来改善网络表现;一种是使用条件随机场来对分割结果进行后处理,具体网络代表有DeepLab;这两个主线的改善了分割结果的定位。当然,相关方向的文章需要各位读者深入阅读,并进行实验,这样才可以融汇贯通。

下面笔者来介绍这篇文章的方法部分,这是论文的灵魂所在。首先,我来解释一下上面提到的,为何要提出金字塔池化模块。看图1,先看最上面一行,FCN网络预测水里的小船(boat)为汽车(car),这种情形叫做关系不匹配(Mismatched Relationship),

PSPNet语义分割网络_第1张图片

                                                                                图1 不同网络分割对比图

造成这种错误原因是丢失了全局的上下文信息。在看看中间一行,FCN预测框内building部分为skyscrape,部分为building,这种情形叫做类别混淆,这种错误可以通过类别之间的关系来被修正。最后看第三行,FCN预测中将小的pillow(枕头)进行忽略,这种情形叫做不显眼类别(Inconspicuous Classes),这个情况是由于FCN感受野设置不合理造成的,为了解决这种问题,网络要关注不

PSPNet语义分割网络_第2张图片

                                                                                    图2 金字塔池化层

同子区域的感受野(我们可以使用上下文信息多少)。当然还有其它问题,总之这就是Pyramid Pooling Module提出来的原因。接下来介绍我们的重点对象Pyramid Pooling Module,可以提取全局的上下文信息,具体如图2,该层的输入是由backbone卷积经典网络输出特征图,首先使用不同stride和size的pool作用得出不同尺度的特征图,每层叫做金字塔层,这代表不同子区间的特征和

PSPNet语义分割网络_第3张图片

                                                                                   图3 PSPNet网络结构

不同位置的池化表示,接着,为了保持全局特征的权重,在每个金字塔层次后使用1×1卷积层,当金字塔层次大小为N时,将上下文表示的维数降到原来的1/N。然后直接对低维特征映射进行双线性插值,得到与原来特征映射相同大小的特征,最后对得到不同层次的特征进行concat(通道级别)。具体PSPNet网络结构如图3,首先输入一种要分割图片,之后经过一个预训练的ResNet,之后,当然该ResNet去掉全连接层,输出feature map大小为原始输入图像的1/8,接着将feature map输入到提出的Pyramid Pooling Layer提取全局上下文信息,最后输出最终的分割图。为了更好的优化提出的PSPNet,具体优化包括两部分了,作者基干网络采用ResNet110,优化如图4,分为两部分,主分支采用softmax损失来优化最终分类器,而辅助损失帮助优化学习过程,作者增加权重来平衡辅助损失,具体看代码,测试阶段去掉辅助损失。

PSPNet语义分割网络_第4张图片

                                                                                  图4 PSPNet网络优化

最后是实验部分,这部分我不会详细阐述,主要证明网络最优性。如图5证明maxpool和avgpool最优性。图6取值不同a对分割影响。图7不同深度和采用尺度测试对分割影响。图8PSPNet和不同模型对比。图9.PSPNet分割效果图展示。

PSPNet语义分割网络_第5张图片

                                                                             图5 不同池化和维度降低对比图

PSPNet语义分割网络_第6张图片

                                                                                  图6 不同权重下辅助函数对分割结果影响

PSPNet语义分割网络_第7张图片

                                                                图 7 不同深度和采用尺度测试对分割影响

PSPNet语义分割网络_第8张图片

                                                                                 图8 和其他模型对比

PSPNet语义分割网络_第9张图片

                                                                                      图9 分割效果图

你可能感兴趣的:(语义分割)