论文笔记:Strip Pooling条纹池化: Rethinking Spatial Pooling for Scene Parsing

本文考虑了N×1和1×M的狭长形状的池化核。

本文主要贡献:

1)引入了一个新的strip pooling模块,使backbone网络能够有效地模拟long-range依赖关系;
2)提出了一种以多种空间池化为核心的新型模块MPM,并构建了SPNet;
3)系统地比较了所提出的strip pooling和传统Spatial pooling技术的性能;

网络结构

1.Strip pooling(SPM)
论文笔记:Strip Pooling条纹池化: Rethinking Spatial Pooling for Scene Parsing_第1张图片
如图所示,分别用H×1和1×W的条形池化核进行操作。利用扩展卷积将结果扩充为H×W大小,将对应位置的值相加。再将原始的数据和sigmoid后的数据对应元素相乘得到输出。
这里模块的前后分别还有一个1×1的卷积核,作用就是改变通道数,结构类似于bottleneck。

2.MPM(Mixed Pooling Module)
论文笔记:Strip Pooling条纹池化: Rethinking Spatial Pooling for Scene Parsing_第2张图片
融合池模块将条纹池化和空间池化的结果串联起来作为输出,本模块前后同样也都有一个1x1的卷积核用来改变通道数量。图(a)适用于识别短距离依赖,图(b)适用于长距离依赖,将两者结合起来识别效果更好。(1)和(2)中除了子模块前后改变通道数目的1×1卷积核之外,其它都为3x3。
3.SPNet
论文基于SPM和MPM模块搭建了一个网络:SPNet,以残差网络作为backbone,并将最终的特征图大小设置为输入图像的1/8(1/8从哪里来的?),将SPM添加到每个阶段中最后一个构建块的3×3卷积层和最后一个阶段中的所有构建块之后。SPM中的所有卷积层共享相同数量的输入张量通道。由于骨干网络的输出具有2048个通道,因此我们首先连接一个1×1卷积层将输出通道从2048减少到1024,然后添加两个MPM在主干上。在每个MPM中,所有内核尺寸为3×3或3的倍数的卷积层都有256个通道(即1/4的缩减率为用过的)(这里不太懂)。最后添加卷积层以预测分割图。

实验结果

论文在ADE20K、Cityscapes和Pascal Context数据集上进行了实验。在cityscape上达到了82.0的mIoU。
论文笔记:Strip Pooling条纹池化: Rethinking Spatial Pooling for Scene Parsing_第3张图片论文笔记:Strip Pooling条纹池化: Rethinking Spatial Pooling for Scene Parsing_第4张图片论文笔记:Strip Pooling条纹池化: Rethinking Spatial Pooling for Scene Parsing_第5张图片
论文笔记:Strip Pooling条纹池化: Rethinking Spatial Pooling for Scene Parsing_第6张图片

你可能感兴趣的:(论文解读)