论文:论文链接
出处:中国图象图形学报
目录
1.摘要
2.网络结构
2. 1 改进的条形池化技术
2.2 二阶通道注意力机制
3.结果
目的 针对自然场景下图像语义分割易受物体自身形状多样性、距离和光照等因素影响的问题,本文提出 一种新的基于条形池化与通道注意力机制的双分支语义分割网络(strip pooling and channel attention net,SPCANet)。 方法 SPCANet 从空间与内容两方面对图像特征进行抽取。 首先,空间感知子网引入 1 维膨胀卷积与多尺度思想 对条形池化技术进行优化改进,进一步在编码阶段增大水平与竖直方向上的感受野;其次,为了提升模型的内容感 知能力,将在 ImageNet 数据集上预训练好的 VGG16(Visual Geometry Group 16-layer network)作为内容感知子网,以 辅助空间感知子网优化语义分割的嵌入特征,改善空间感知子网造成的图像细节信息缺失问题。 此外,使用二阶 通道注意力进一步优化网络中间层与高层的特征选择,并在一定程度上缓解光照产生的色差对分割结果的影响。 结果 使用 Cityscapes 作为实验数据,将本文方法与其他基于深度神经网络的分割方法进行对比,并从可视化效果 和评测指标两方面进行分析。 SPCANet 在目标分割指标 mIoU(mean intersection over union)上提升了 1. 2% 。 结论 提出的双分支语义分割网络利用改进的条形池化技术、内容感知辅助网络和通道注意力机制对图像语义分割进行 优化,对实验结果的提升起到了积极作用。
前两天刚看了一篇条形卷积(strip conv)的文章,需要的可以往前翻我的笔记。今天就看到了条形池化(strip pooling)的操作,最近“条形操作”水逆啊。
话不多说。直接看操作吧:
将输入的特征图同时送入两个子分支进行不 同维度(水平和竖直方向)的编码。
step1:在水平方向上, 使用1 × n 的池化操作将特征图变换成形状为 n × 1 的特征表示(输入特征图(n × n) );
step2:使用一组并行的膨胀卷积对 特征图进行特征提取,膨胀率选为(0, 6, 12, 18);
step3:将这些并行分支产生的特征图采用 concatenate 特征融合方式进行特征融合;
step4:最邻近插值法 将 n × 1 的特征图恢复至n× n;
step5:垂直方向上一致,通过 n × 1池化操作将特征图变成1 × n ,其他操作与水平方向上一致,最终得到垂直方向上的n×n的特征图;
step6:将两个分支 的结果通过加操作来完成特征融合;
step7:叠加后的特征图送入 1 × 1 的卷积、 sigmoid 函数得到权重矩阵;
step8:将权重矩阵与原始特征图进行相乘,得到更新后的特征图。
该模块核心思想是通过计算通道间的相关性权重矩阵来更新输入特征图,主要操作也比较简单:
step1:使用协方差对输入特征图的通道关系进行关联性表示;
step2:接着池化函数中进行特征转换,并使用两个卷积层进行 特征调整(这两个卷积层中间使用 ReLU( rectified linear unit)来增加非线性);
step3:通过函数 sigmoid 将权重归一化到0-1,与条形池化模块的权重矩阵功能类似;
step4:将权重矩阵与原始特征图相乘得到更新后的特征图。
实验数据为Cityscapes数据集。
结论:虽然论文精度和结果提升比较浅,但中间的两个模块(条形池化、通道注意力)确是最近论文的热点,所以看到标题就忍不住进来看一眼,可没有内涵该文章是“标题党”的意思。