CVPR 2019 | 用于场景分割的双重注意力网络

场景分割是目前应用前景非常广泛的方向之一,对场景进行精确的分割始终有着显著的实际意义并且极富挑战。来自中国科学院自动化研究所模式识别国家重点实验室的文章《Dual Attention Network for Scene Segmentation》采用了创新的双重注意力,在传统的主干网络FCN中加入了双注意力模块,将两个注意力模块的输出相加来进一步改进特征表示,最终自适应地了集成空间和通道维度本地特征的全局依赖性,在该任务上取得了优秀的效果。

CVPR 2019 | 用于场景分割的双重注意力网络_第1张图片

论文地址:
https://arxiv.org/abs/1809.02983

数据集

Cityscapes数据集,训练集2979张图片,验证集500张图片,测试集1525张图片,共有19种标签。
PASCAL VOC 2012数据集,训练集10582张图片,验证集1449张图片和测试集1456张图片,共有20中标签。
PASCAL Context数据集,训练集4998张图片,测试集5105张图片。

模型

模型结构

CVPR 2019 | 用于场景分割的双重注意力网络_第2张图片
在场景分割问题中,相同的物体在不同的光照、位置等情况下是很不相似的,由于卷积计算具有局部感受野,而相同标签又有着像素的差异,这些原因导致传统的FCN分割效果不佳。因此在本论文中,通过作者设计的DANet将注意力机制扩展到场景分割任务中,使得特征表示更加紧凑,有效的提高了分割的准确性。模型整体使用一个预训练的带有膨胀卷积的残差网络为主干,在最后两个残差块中去除下采样并且使用膨胀卷积(操作和deeplab前半部分基本类似),然后将特征图输入到两个并行的注意力模块。上半部分为空间注意力模块,下半部分为通道注意力模块。
空间注意力模块首先使用卷积层得到降维的特征,之所以降维是因为这样可以很好的提取特征并且附带着降低运算量,再者,因为自注意力模块计算的是自身的注意力,假如不通过卷积层,通常任何位置必然和自己拥有最大的softmax值,难以得到表达能力强的attention权值矩阵。接着,通过注意力公式得到空间注意矩阵。
CVPR 2019 | 用于场景分割的双重注意力网络_第3张图片
CVPR 2019 | 用于场景分割的双重注意力网络_第4张图片
自注意力公式是将一个batch内三维张量按照空间展开成两维,一维为空间位置,另一维为通道层数,通过自身对自身的矩阵乘法再做softmax得到自注意力权重矩阵。得到权重矩阵之后,自身与权重矩阵做矩阵乘法最终得到自注意力生成的矩阵,改变维度为三维张量,即由空间注意矩阵和D以及最原始的输入A得到空间注意特征图。
CVPR 2019 | 用于场景分割的双重注意力网络_第5张图片
通道注意力模块整体流程和空间注意力模块类似,唯一的区别是不需要卷积层进行降维,通道注意力不降维是实验得出的结果。
CVPR 2019 | 用于场景分割的双重注意力网络_第6张图片
CVPR 2019 | 用于场景分割的双重注意力网络_第7张图片
CVPR 2019 | 用于场景分割的双重注意力网络_第8张图片

实验结果

CVPR 2019 | 用于场景分割的双重注意力网络_第9张图片
CVPR 2019 | 用于场景分割的双重注意力网络_第10张图片
从比较结果可知,双注意力都可以得到更加精确有效的空间表达,从位置和类别两方面让语义分割的结果更优秀。
CVPR 2019 | 用于场景分割的双重注意力网络_第11张图片
在Cityscapes测试集中,DANet性能优于所有的现有方法,在平均IOU上达到81.5%的指标。

结论

通过实验结果的定性与定量分析可知,双重注意力模块能够有效地得到大范围内特征的全局依赖性,从空间位置关系和通道类别关系两方面优化特征的表达能力,使分割结果更加精确。与此同时也可知,NLP中提出的self attention不仅在文本任务中表现优秀,在图像的各个领域同样表现良好,提醒我们多交叉使用不同方向的思想。


CVPR 2019 | 用于场景分割的双重注意力网络_第12张图片
扫码识别关注,获取更多论文解读

你可能感兴趣的:(CVPR 2019 | 用于场景分割的双重注意力网络)