论文阅读——DA-Net:Dual Attention Network forScene Segmentation

论文阅读之DA-Net:用于场景分割的双重注意力模型
cvpr2019
paper
code

摘要

本文主要聚焦于通过注意力机制采集丰富的上下文信息用于场景分割,但不同于多级特征融合的方式,而是提出了一种双重注意力模型(DA-Net),在使用空洞卷积的FCN基础上引入两种注意力机制:空间和通道维。
空间注意力通过计算同一像素点所有feature的加权和得到,因此相似特征的关联性不会因为距离远近就丢失掉;通道注意力则会在所有通道中挑选出具有代表性的通道。
结合两种注意力机制提供的信息有助于进一步提升网络的分割性能,最终在Cityscapes,PASCAL和COCO数据集上取得了SOTA。

Section I Introduction

场景分割是主要通过语义分割的方式将图片分割为具有不同语义信息的部分,是一项基础且具有挑战性的计算机视觉类任务,可进一步用于自动驾驶、机器人感知及图像编辑等领域。这一过程就需要对容易混淆的实体或同类但外形差异较大的物体进行精确分割,比如草地和路面就较难区分,车辆的分割也经常受到大小、遮挡、光照等因素的影响。因此,提取更加显著的特征表达对于像素级别的分类十分重要。
在分割领域目前的SOTA结果大多以FCN为基础网络,优化之一是进行多级特征的融合。比如将不同层次的特征图谱combine在一起,或者通过增加编码或解码结构获得更加丰富的全局信息,比如UNet结构等,将mid-level和high-level提取的特征进行了融合。
另一个优化方向是通过循环神经网络来提取图像长期记忆之间的依赖关系,一般以2D LSTM网络为基础,主要用于捕获空间信息上的关系,但学习的性能依赖于长期记忆机制的学习结果。
为了解决上述问题,本文提出了双重注意力机制网络用于自然图像的分割。结构如Fig2所示。双重注意力机制通过position attention module和channel attention module在空间和通道维度上有效捕获特征之间的相互依赖关系。
position attention module:通过计算所有位置处的加权和捕获任意两个位置之间的空间依赖性,二者之间的权重由特征之间相似性决定,无论距离远近
channel attention module:通过计算所有通道之间的加权和来捕获通道之间的依赖性关系
最后将两种注意力机制的结果融合以得到更佳的特征描述。
论文阅读——DA-Net:Dual Attention Network forScene Segmentation_第1张图片
这种注意力机制比前期一些工作具有更好的灵活性,更适合复杂场景的分割。比如在街景分割中,行人路灯等容易受到其他显著性物体的影响从而降低分割精度,通过将这种不显著特征集合起来提升其特征显著性;再者,车体和行人分割往往所需的关注范围不一样大小,但在进行分割时无论规模大小都应该赋予相同的注意力,通过我们的自适应注意力机制就可以对同规格的物体均施以同等的重视;最后,通过将空间和通道维度的注意力融合有助于捕获较长范围的依赖关系。
本文的工作总结如下:
(1)提出基于自适应注意力机制的DA-Net用以提取更具代表性的特征用于场景分割
(2)position attention module用来学习特征在空间上的依赖关系;channel attention module学习特征在通道维度上的依赖关系。通过获取局部特征之间的依赖关系可显著提升分割精度
(3)最终将DA-Net在PASCAL、COCO、Cityspace等benchmark上进行了测试

Section II Related work

语义分割:FCN全卷积神经网络的提出促进了与一份各领域的发展,相关变体有:DeepLabv2-3引入ASPP,PSPNet引入金字塔池化,基于编解码的分割框架用于特征融合;还有通过局部特征学习上下文关联性的DAG-RNN,像素之间关联性的PSANet,OCNet和EncNet分别引入空间注意力和通道注意力来提升分割精度
自注意力模型:注意力模块可以更有效的捕获更大范围内的相互关联性,广泛用于机器翻译、图像识别、图像生成

本文则将注意力机制引入场景分割任务中,设计了两种注意力模块捕获更丰富的上下文关系,从而提升分割精度。

Section III DA-Net

本章介绍DA-Net的整体框架以及两个注意力模型如何提取特征在空间和通道维度上的特征依赖性,最后介绍如何将二者结合起来。
Part A整体框架
在卷积过程中对一定感受野范围内进行特征提取,但鉴于分割物体大小不一,还有光照、视角等的差异,使得类内差异较大,一定程度上影响了分割的精度,基于此本文通过注意力机制来获取全局的上下文信息,而且本文的注意力机制可以自适应的集成任何尺度范围的上下文信息从而提升分割精度。
如Fig2所示,首先输入图像经过空洞卷积的resnet获得局部特征,最后两个残差模块移除了下采样操作而使用了空洞卷积,获得原图1/8大小的feature map
随后将feature map经过一层卷积后送入两个并行的注意力模块,从上至下对应是spatial attention module和channel attention module
首先产生捕获空间依赖性和通道依赖性的feature map.
其次将得到的空间/通道矩阵原输入图像相乘在进行element-wise的求和获得最终的输出
Part B Position Attention Module
获取整体的具有辨别性的特征表示有助于图像分割及场景理解,但一些研究表明使用FCN提取到的一些局部特征经常会导致误分类,为了获得特征之间更丰富的关联关系,我们设计了空间注意力模块,增强了特征的表达能力,下面就详细介绍如何自适应的集成空间中的上下文信息。
论文阅读——DA-Net:Dual Attention Network forScene Segmentation_第2张图片
将特征图A 经过卷积后生成BC两张特征图谱,维度均为CHW,并进行BC^T产生N*N的输出,将这一输出经过softmax后得到空间注意力图,spatial attention map中每一个值代表任意两像素之间的相关性,若两个特征越接近二者相关系数越大,随后将spatial attention map与另一特征图D矩阵相乘,最终的结果与原图进行element_wise加和,最终产生的输出结果代表了空间中任意两点特征之间的相关性,增强了语义一致性。
在这里插入图片描述可以看出最终输出E每一点的值均为原始特征每个位置求加权和得到的结果。

Part C Channel Attention Module
高层次特征每一个通道都可认为是对某一类的响应,通过获得通道之间的相关性获取的是语义特征之间的联系。
论文阅读——DA-Net:Dual Attention Network forScene Segmentation_第3张图片
但和spatial attention module的计算过程稍有不同。首先将输入A的reshape与reshape+transpose的结果进行矩阵相乘得到通道注意力图X,随后将X的transpose与原输入A相乘后reshape成A的维度,再与A进行element-wise summation。
这样获取通道之间在语义上的相互关联性来提升特征的表达能力
在这里插入图片描述在这里插入图片描述
Part D注意力模块的嵌入机制*
为了利用较大范围的上下文信息,我们将两个注意力模块提取到的特征通过一层conv+element-wise summation完成特征融合,最后再经过一次conv完成prediction map的生成。本文没有使用更占GPU资源的级联的方式,而且注意力模块可以直接嵌入到FCN中,在不过多增加参数的情况下提升特征的表达能力。

Section IV Experiments

随后为了验证DA-Net的有效性,在PASCAL VOC2012,Cityscapes以及COCO数据集上进行了实验。
数据集:
Cityscapes:来自50城市5000张图片,规格2048*1024,共19类,提供小苏级别标注。划分:train:val:test = 2979:500:1525
PASCAL VOC 2012:20类前景+1背景类别。train:val:test = 10582:1449:1456
PASCAL Context:对全场景提供语义标签,60类(59前景+1背景)train:test = 4998:5105
COCO Stuff:171类 train:test = 9000:1000
实验细节:
使用Pytorch框架,学习率各个数据集看细节,batchsize=8、16
epochs=180、240

Section V 实验结果分析

Part A 消融实验
首先为了验证PAM和CAM的有效性进行了消融实验,具体实验设定如Table1,在以ResNet50/101为backbone的实验中CAM/PAM均有效提升了Mean IoU。
论文阅读——DA-Net:Dual Attention Network forScene Segmentation_第4张图片
可视化的结果也显示,PAM的引入对一些“电线杆”“人行道”分割效果更好;CAM则提升了对整个物体种类上的分割性能。
论文阅读——DA-Net:Dual Attention Network forScene Segmentation_第5张图片Part C Attention Map的可视化
每一个像素点都对应H*W的一张sub-attention map。因此实验挑选每张图上两个像素点展示了其各自的sub-attention map。可以看到PAM模块缺失补货到了语义之间更相似的部分,而且边缘分割的更加清晰.
对于channel map不是很好进行可视化,因此挑选了部分通道进行可视化,来看是否高亮了相近语义的部分,比如第11层响应的是“car”这一类别,第4层通道响应的是vegetation这一来别。
因此可以看出 CAM和PAM的加入增强了特征之间的关联性,善于跨越距离寻找相似语义的部分。
这部分挺有意思的、、
论文阅读——DA-Net:Dual Attention Network forScene Segmentation_第6张图片后面就是依次在前文所介绍的数据集上开展实验,评价指标选用的Mean IoU,在此不赘述。

Section VI Conclusion

本文提出的双重注意力网络(DA-Net)将自适应注意力机制引入分割网络。通过PAM和CAM两个注意力模块的设计,捕获特征之间的相互关联性,括约距离增强对相似语义部分的特征学习,从而提升分割性能。在benchmark数据集上均取得了SOTA。

summary:对通道和空间信息进行了利用,联想到之前的sqeeze&excitation module,抽时间复习一遍那篇paper。
attention map可视化部分最吸眼球了

你可能感兴趣的:(CV,机器学习,计算机视觉,人工智能,深度学习)