Squeeze-and-Attention Networks for Semantic Segmentation解读

最近将注意力机制整合到分割任务通过强调特征里面的信息中来提升模型的表征能力。但是这些注意力机制忽略了一个暗含的分割子任务并且被卷积核的方格型形状所限制。我们提出了一个新颖的压缩注意力网络(SANet)结构,利用了一个高效的压缩注意力(SA)模型去计算两个分割图突出的特征:1)分组像素注意 2)像素级预测。特别指出,我们提出的压缩注意力模型通过引入注意力卷积通道在常规卷积上加了像素组注意力,所以以有效的方式引入一个空间-通道相互依赖。最终的分割结果由网络输出和四个阶段的多尺度上下文目标像素级预测增强融合所得。我们的SANEet在coco数据集上取得83.2%的精度,在PASCAL取得54.4%的精度。

Squeeze-and-Attention Networks for Semantic Segmentation解读_第1张图片 图1 分割任务两个子任务,一个是像素级的分类,即每个像素都要预测一个标签,一个是像素分组,即预测哪些像素为一组

以前的工作:

1)多尺度上下文,一般包含金字塔或者多尺度通道,通过融合多尺度的上下文信息达到增强分割的目的。一个聚集激活模型被提出通过长范围的上下文信息来缓解普通卷积的特征的位置限制。我们的方法用融合主干残差网络不同阶段的输出来提高稠密连接的多尺度预测。

2)通道注意力,一般就是给特定的通道分配不同的权重达到强调重要通道的目的。缺点:带来额外的参数。而我们的压缩注意模型带有下采样但是并不完全压缩卷积通道,使得网络更灵活。特别是增加的通道

3)像素组注意力,自然语言处理中的注意力机制很成功,促使了它在分割任务中的应用,空间转换网络详细的学习空间注意力利用全链层转换去增加特征图的不变性。RNN、LSTM等一些网络也被用在了分割任务中。不同于这些现存的模型,我们用平均池化组成的下采样通道去融合多尺度特征图并同时产生软全局注意力掩膜。所以,我们的SA模型提高了目标像素级的预测,并考虑了被忽略的像素组注意力的问题。

本文收SENet启发,提出SA模型,和SE结构有相似之处,但又有所不同。SA结构可以有效地提升分割的精度。

Squeeze-and-Attention Networks for Semantic Segmentation解读_第2张图片 (a)普通残差结构(b)带SE结构的残差结构(c)本文提出的方法,用池化代替全链层,再上次采样
Squeeze-and-Attention Networks for Semantic Segmentation解读_第3张图片 网络结构

 网络主干用了带有膨胀卷积的FCN(resnet)然后将不同(下采样)阶段的特征图输出,经过SA模块提取特征里面的目标的种类信息和mask,作后用label对这些信息进行监督学习。

 

 网络有三个loss:dense loss\mask loss\categorcal loss,对应上图的三个loss。增加的两个loss分别约束

图像中出现的目标的类与目标的mask。

Squeeze-and-Attention Networks for Semantic Segmentation解读_第4张图片

 

在PASCAL上的实验结果: 

Squeeze-and-Attention Networks for Semantic Segmentation解读_第5张图片

COCO数据集实验结果:

Squeeze-and-Attention Networks for Semantic Segmentation解读_第6张图片 

总结:本文在分割任务上强调了像素组对分割的重要性,并通过目标的mask构建额外的loss,从而更好的学习目标的mask,从而提高精度,网络结构在SENet的基础上做了改进,提出SA结构,并将全链层替换为平均池化层,从而达到既能表征局部信息又能表征全局信息的效果。

你可能感兴趣的:(Squeeze-and-Attention Networks for Semantic Segmentation解读)