[语义分割]--ICCV2019-Dynamic Multi-scale Filters for Semantic Segmentation

[语义分割]--ICCV2019-Dynamic Multi-scale Filters for Semantic Segmentation_第1张图片

摘 要 : \color{#FF3030}{摘要:}

多尺度表示为语义分割中处理物体尺度变化提供了一种有效的方法。以往的工作主要是利用不同的滤波器尺寸来构造多尺度的表示法,通过扩张型滤波器或池化网格来扩展滤波器尺寸,这些滤波器的参数经过训练后是固定的。这些方法计算量大,参数多,在推理过程中对输入图像不适应。为了解决这些问题,本文提出了一种动态多尺度网络(DMNet)来自适应地捕获多尺度内容来预测像素级语义标签。DMNet由多个并行排列的动态卷积模块(DCMs)组成,每个DCMs利用上下文感知过滤器来估计特定规模的语义表示。多个DCMs的输出被进一步集成以进行最终分割。我们进行了大量的实验,以评估我们的DMNet在三个具有挑战性的语义分割和场景解析数据集,PASCAL VOC 2012, PASCAL - context和ADE20K上的性能。DMNet在未经MS COCO预处理和后处理的情况下,在PASCAL VOC 2012测试集上创下了84.4% mIoU的新记录,并在PASCAL Context和ADE20K上获得了最先进的性能。

正 文 : \color{#FF3030}{正文:}

Motivition:
[语义分割]--ICCV2019-Dynamic Multi-scale Filters for Semantic Segmentation_第2张图片
作者首先分析了当前多尺度融合的几个常用方法,如上图:
1.inception采用不同卷积核大小的并行分支结构,但是inception结构带来参数和计算量的增加,也会增加过拟合的风险。
2.PSPNet中的PPM模块在每个位置上的权重相等,并且在池操作中可能丢失精细细节信息,这可能会妨碍最终的性能。
3.ASPP需要寻求空洞率和尺度范围的平衡。此外,稀疏采样方法会丢失相邻信息,较大的扩展率可能会造成网格化伪影。
以上方法在训练过程中的参数是固定的,不能适应推理过程中输入图片的尺度范围。因此作者提出一个动态多尺度适应的网络DMNet。
DMNet:
[语义分割]--ICCV2019-Dynamic Multi-scale Filters for Semantic Segmentation_第3张图片
DMNet的backbone采用一些常用分类网络,stage4,5采用dilation=2,4的空洞卷积,保证分辨率的大小。本文最大的创新点就是提出的DCM模块,具体解释一下结构:
作者提出多个不同k参数的DCM并行分支,每个DCM中,对输入HW1024做两个分支的操作,其中一个分支用11卷积对输入进行降维得到HW*512特征;另外一个分支先对输入做Adaptive Pooling的操作,具体就是根据k的大小,将输入pooling变为kk1024的特征,然后经过11的卷积进行降维,得到kk512的特征,本文最大的创新就是将这个kK512的特征作为context-aware卷积核,然后与第一个分支得到的特征进行深度分离卷积。最后使用11卷积进行个融合,得到最终的特征。不过我这里还是没懂动态适应输入尺度的理念在哪里,直观感觉还是设置并行的固定参数的分支。

实 验 结 果 : \color{#FF3030}{实验结果:}

1.k的组合与inception结构对比,可以看出提升非常大:
[语义分割]--ICCV2019-Dynamic Multi-scale Filters for Semantic Segmentation_第4张图片
2.与ASPP不同空洞率的组合效果和效率对比:
[语义分割]--ICCV2019-Dynamic Multi-scale Filters for Semantic Segmentation_第5张图片
3.与SOTA的方法在标准数据集上对比:
[语义分割]--ICCV2019-Dynamic Multi-scale Filters for Semantic Segmentation_第6张图片
[语义分割]--ICCV2019-Dynamic Multi-scale Filters for Semantic Segmentation_第7张图片
备注:准备复现一下,尝试一下效果

你可能感兴趣的:([语义分割]--ICCV2019-Dynamic Multi-scale Filters for Semantic Segmentation)