1-CCNet 论文解读

CCNet :Criss-Cross(纵横交错的,十字交叉的)

对于每一个像素,通过Criss-Cross Attention模块,在像素十字交叉的路径上获取周围像素的上下文信息。进一步重复操作,recurrent=2,捕获到相对精准分割信息。

1、介绍
1-CCNet 论文解读_第1张图片
图(a)是当前的,也就是原先的方法,参数有H x W个。
图(b)是本文的方法,采用像素纵横交叉的区域,聚合出更加有效的信息。
优点:
(1)减少GPU内存,降低空间复杂度。
(2)采用recurrent=2,明显提高性能,得到更加精准有效的分割信息。

3、方法
首先介绍网络的总体框架,然后介绍在水平和垂直方向捕获信息的Criss-Cross Attention模块。最后为了捕获全局上下文信息,采用递归交叉注意模块,the Recurrent Criss-Cross Attention,R=2。
3.1、整体
1-CCNet 论文解读_第2张图片
输入图像,经过深层卷积网络生产特征图X = H x W,为了保留更多细节,高效生成密集的特征图,本文去掉最后两个下采样操作,并在后续卷积层使用扩张卷积,将特征图X的大小增大到原图的1/8 。
得到特征图X后,利用卷积层得到降维的特征映射H,然后将特征映射H送入Criss-Cross Attention模块,生成新的特征映射H′。
再将H′送入Criss-Cross Attention模块,生成新的特征映射H″。两个Criss-Cross Attention模块参数共享,避免过多参数。本文把R=2的双层模块称为递归交叉注意模块(the Recurrent Criss-Cross Attention)。
然后将特征H″和局部表示特征X连接,再接一个或多个卷积层,进行批处理规范化和特征融合激活,最后将融合后的特征输入分割层,生成最终的分割图。
3.2、Criss-Cross Attention
1-CCNet 论文解读_第3张图片

1-CCNet 论文解读_第4张图片
特征H(空间向量C x W x H,C是通道数,W、H是大小)经过两个卷积核为1x1的卷积层,分别生成两个特征映射Q和K(C′ x W x H)。
获得特征图Q和K后,通过关联操作进一步生成特征图A(‘H+W-1’ x W x H)。
以特征图中的某一元素u为例,Hu经过两个卷积生成Qu和Ωu,D是Qu和Ωu的关联操作后的结果,再接一个softmax层生成特征映射A。
1-CCNet 论文解读_第5张图片
同理特征H经过另一个1x1卷积生成特征图V,u在特征图V上映射的特征向量为Φu。
再由以上特征向量聚合生成H′u。
3.3、Recurrent Criss-Cross Attention
尽管纵横交错的注意力模块可以在水平和垂直方向捕捉长程上下文信息,像素和周围像素之间的关联仍然很稀疏。获取密集的上下文信息有助于语义分割。为了达到这个目的,我们在上面描述的交叉注意模型的基础上引入了递归的交叉注意。
当前纵横交错的注意力模块可以展开成R循环。在第一个循环中,cross -cross attention模块以CNN模型提取的输入feature maps H和输出feature maps H′,其中H和H′的形状相同。在第二个循环中,交叉注意模块采用输入feature maps H′和输出feature maps H″。如图2所示,递归交叉注意模块有两个循环(R=2),足够从所有像素中获取长期依赖关系,生成具有密集丰富上下文信息的新feature map 。

将A和A′分别作为循环1和循环2中的注意映射。因为我们感兴趣的只有在上下文信息传播在空间维度而不是在频道维度,卷积与1×1层过滤器可以认为相同的连接。另外,从位置x0,y0到权重Ai,x,y的映射函数定义为Ai,x,y = f(A,x,y,x0,y0)。
对于任何在特征映射H″上的位置元素u和特征映射H上的位置元素θ,如果R=2 ,u和θ相同的行和列就有关系:
在这里插入图片描述
另一个情况是,u和θ不相同的行和列。图4为上下文信息在空间维度上的传播路径:
在这里插入图片描述
1-CCNet 论文解读_第6张图片
总的来说,我们的递归交叉注意模块弥补了交叉注意模块不能从所有像素中获取最密集的文本信息的不足。与交叉注意模块相比,递归交叉注意模块(R = 2)没有带来额外的参数,并且可以以较小的计算增量的代价获得更好的性能。递归交叉注意模块也是一个自包含模块,可以在任何阶段插入任何CNN架构,并以端到端方式进行优化。

4、实验
我们对城市景观和ADE20K采用平均IoU(类交叉对联合的平均值),对COCO采用标准COCO度量平均精度(AP)。
5、结论
本文提出了一种用于语义分割的纵横交错网络(CCNet),该网络自适应地捕获纵横交错路径上的长程上下文信息。为了获得密集的上下文信息,我们引入了递归交叉注意模块,它从所有像素聚集上下文信息。消融实验表明,周期性的纵横交错注意力能够以更低的计算成本和存储成本获取密集的长期上下文信息。我们的CCNet在两个语义分割数据集(即城市景观,ADE20K和实例分割数据集,即COCO。

你可能感兴趣的:(语义分割)