[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation

前言

看这个名字我就觉得是在PSPNet/DeepLabV3 上采取了attention,果然是…

Introduction

CNN中卷积核有着受限的感受野,同时即使有着更大的感受野,卷积核也通常只关心中心的部位而忽略了边界的信息。

作者提出了一个问题:What are the optimal contexts for sementic segmentation

然后探究上下文向量应该表现出的理想特性:

  • 多尺度 物体通常有不同尺寸和位置

    方法

    • 图像金字塔

    • 在Encoder - Decoder 结构之中 高等级的特征和低等级的特征相融合

    • PSPNet的PPM(金字塔池化)和DeepLab的ASPP(金字塔空洞卷积)

    问题: 平等的对待所有的图像

  • 自适应 不是所有的区域对于label标记的贡献都是相同的,实际中,相关的区域距离可能很近也可能很远

  • 全局引导局部 通过加权的方式聚合特征

    • PSPNet的PPM, ParseNet的GAP,但是没有自适应

过程

[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation_第1张图片

(在PSPNet的基础上改了改?)

我们关心在这个网络的核心模块ACM,ACM给PSPnet的自适应池化层加上了Attention

具体的步骤如下

特征图被分为了两个分支

  • 第一个分支

    • 通过一个 1 × 1 × 512 1\times 1 \times 512 1×1×512的卷积,以此来减小特征图的通道数量,得到特征图 x x x
    • 然后通过全局平均池化,得到一个有全局信息的512维的向量 g ( x ) g(x) g(x)
    • 然后将 g ( x ) g(x) g(x) x x x相加,相当于给每一个像素加上了当前通道的全局信息,得到新的特征图 p p p
    • p p p通过一个 1 × 1 × ∗ s 2 1\times 1\times* s^2 1×1×s2的卷积,然后reshape成为一个 h w × s 2 hw\times s^2 hw×s2的矩阵 A A A, a i j a_{ij} aij为亲和因子
  • 第二个分支

    • 通过一个自适应池化层将原特征图变为 s × s s\times s s×s大小

    • 通过一个 1 × 1 × 512 1\times 1 \times 512 1×1×512的卷积调整通道数

    • 将调整后的特征图reshape成为 s 2 × 512 s^2 \times 512 s2×512的矩阵 B B B以满足矩阵相乘的原理

A ∗ B A*B AB的结果作为新的特征图,新的特征图相当于融合了全局信息的特征图

然后还要加上最早的特征图 x x x,这样得到了最后的特征图

(直接把1*1卷积合并在一起感觉更好…)

实验设计

  • 设计了相同的bacebone之下的不同自适应池化层的大小比较

[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation_第2张图片

  • 设计了有无ACM模块的比较

[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation_第3张图片

  • 设计了有无深监督,预训练,水平翻转,多尺度(随机不同大小的图片输入)评价的比较

[论文阅读]Adaptive Pyramid Context Network for Semantic Segmentation_第4张图片

自己的一点小小分析

矩阵乘积的attention 和 直接加权的attention区别?

你可能感兴趣的:(Image,Segmentation,计算机视觉,深度学习)