Attention Mechanisms in Computer Vision: A Survey(四)

接上一篇博客:Attention Mechanisms in Computer Vision: A Survey(三)

一、Channel & Spatial Attention

通道与空间注意力结合了通道注意力和空间注意力的优点。它自适应地选择重要对象和区域。残差注意力网络开创了通道和空间注意力领域,强调了信息特征在空间和通道维度上的重要性。它采用自下而上的结构,由几个卷积组成,生成一个3D(高度、宽度、通道)注意力图。然而,它有很高的计算成本和有限的接受领域。 为了利用全局空间信息,后来的工作中引入了全局平均池化,并将通道注意力和空间通道注意力解耦,从而增强了特征的辨别能力。

(一)、Residual Attention Network

受ResNet的成功启发,Wang等人通过将注意机制与残差连接相结合,提出了非常深的卷积残差注意网络(RAN)。堆积在残差注意力网络中的每个注意力模块可分为掩码分支和主干分支。主干分支提取特征,并且可以由任何最先进的结构实现,包括预激活残差单元和初始模块。掩码分支使用自下而上自上而下的结构来学习与主干分支的输出特征具有相同大小的掩码。在两个1×1卷积层之后,sigmoid层将输出标准化为[0,1]。总的来说,残差注意力机制可以写成
在这里插入图片描述
其中, h u p h_{up} hup是一种自下而上的结构,在残差单位之后使用多次最大池化来增加感受野,而 h d o w n h_{down} hdown是自上而下的部分,使用线性插值来保持输出大小与输入特征图相同。这两个部分之间也存在跳过连接,这在公式中被省略。f代表主干分支,可以是任何最先进的结构。
其结构如下:
Attention Mechanisms in Computer Vision: A Survey(四)_第1张图片
在每个注意力模块内部,自下而上,自上而下的前馈结构对空间和跨通道依赖性进行建模,从而实现一致的性能改进。残差注意力可以以端到端的训练方式融入任何深层网络结构。然而,提议的自下而上自上而下的结构未能利用全局空间信息。此外,直接预测3D注意力特征图的计算成本很高。

(二)、 CBAM

见博文

(三)、BAM

Park等人与CBAM同时提出了瓶颈注意力·模块(BAM),旨在有效提高网络的表征能力。它使用扩展卷积来扩大空间注意力子模块的感受野,并按照ResNet的建议构建瓶颈结构以节省计算成本。
对于给定的输入特征映射X,BAM推断通道注意 s c ∈ R C s_c∈ R^C scRC与空间注意 S s ∈ R C × H × W S_s∈ R^{C×H×W} SsRC×H×W将两个分支输出的大小调整为后,将两个注意力图相加。与SE块一样,通道注意力分支对特征映射应用全局平均池化来聚合全局信息,然后使用具有通道降维的MLP。为了有效地利用上下文信息,空间注意力分支结合了瓶颈结构和膨胀卷积。总的来说,BAM可以写成
Attention Mechanisms in Computer Vision: A Survey(四)_第2张图片
其中 W i 、 b i W_i、b_i Wibi分别表示全连接层的权重和偏置, C o n v 1 1 × 1 Conv^{1×1}_1 Conv11×1 C o n v 2 1 × 1 Conv^{1×1}_2 Conv21×1是用于通道缩减的卷积层。 D C i 3 × 3 DC^{3×3}_i DCi3×3表示一个具有3×3核的膨胀卷积,用于有效利用上下文信息。扩展将注意力映射 s s s_s ss s c s_c sc扩展为 R C × H × W R^{C×H×W} RC×H×W
BAM可以在空间和通道维度上强调或抑制特征,并提高有代表性的特征。应用于通道和空间注意力分支的降维使其能够与任何卷积神经网络集成,而只需很少的额外计算成本。然而,尽管膨胀卷积有效地扩大了感受野,但它仍然无法捕获远程上下文信息以及编码跨域关系。
Attention Mechanisms in Computer Vision: A Survey(四)_第3张图片

(四)、scSE

为了聚合全局空间信息,SE块对特征图应用全局池化。然而,它忽略了像素级的空间信息,这在密集预测任务中很重要。因此,Roy等人提出了空间和通道SE块(scSE)。与BAM一样,使用空间SE块作为SE块的补充,提供空间注意力权重,以关注重要区域。
给定输入特征映射X,将空间SE和通道SE两个并行模块应用于特征映射,分别对空间和通道信息进行编码。信道SE模块为普通SE块,而空间SE模块采用1×1卷积进行空间压缩。这两个模块的输出被熔断。整个过程可以写成
Attention Mechanisms in Computer Vision: A Survey(四)_第4张图片
其中f表示融合函数,可以是最大值、加法、乘法或级联。 提出的scSE块结合了通道和空间注意力,以增强特征,并捕获像素级的空间信息。分割任务因此受益匪浅。在F-CNN中集成一个scSE块可以在语义切分方面取得一致的改进,而额外的成本可以忽略不计。
Attention Mechanisms in Computer Vision: A Survey(四)_第5张图片

(五)、Triplet Attention

在CBAM和BAM中,通道注意和空间注意是独立计算的,忽略了这两个领域之间的关系。Misra等人受空间注意力的激励,提出了三重注意,这是一种轻量级但有效的注意机制,用于捕捉跨域交互。
给定一个输入特征映射X,三重注意使用三个分支,每个分支都在捕获H、W和C中任意两个域之间的跨域交互中发挥作用。在每个分支中,首先对输入应用沿不同轴的旋转操作,然后Z-pool层负责聚合零维信息。最后,一个内核大小为k×k的标准卷积层对最后两个领域之间的关系进行建模。这个过程可以写成Attention Mechanisms in Computer Vision: A Survey(四)_第6张图片
其中 P m 1 Pm_1 Pm1 P m 2 Pm_2 Pm2表示分别沿H轴和W轴逆时针旋转90度◦ 而 P m − 1 Pm^{−1} Pm1表示倒数。Z-Pool沿第零维连接最大池化和平均池化。
在这里插入图片描述
与CBAM和BAM不同,三重态注意强调捕获跨域交互的重要性,而不是独立计算空间注意和通道注意。这有助于捕获丰富的区分性特征表示。由于其简单而高效的结构,三重态注意可以很容易地添加到经典骨干网络中。
Attention Mechanisms in Computer Vision: A Survey(四)_第7张图片

(六)、SimAM

Yang等人强调了在提出SimAM时学习不同通道和空间领域的注意力权重的重要性,SimAM是一个简单、无参数的注意模块,能够直接估计3D权重,而不是扩展一维或二维权重。SimAM的设计基于著名的神经科学理论,因此无需手动微调网络结构。 受空间抑制现象的启发,他们提出应强调显示抑制效应的神经元,并将每个神经元的能量函数定义为:
在这里插入图片描述
Attention Mechanisms in Computer Vision: A Survey(四)_第8张图片

(七)、Coordinate attention

SE块在建模跨通道关系之前使用全局池聚合全局空间信息,但忽略了位置信息的重要性。BAM和CBAM采用卷积来捕获局部关系,但无法建模长期依赖关系。为了解决这些问题,Hou等人提出了协调注意力,这是一种新的注意机制,它将位置信息嵌入到通道注意中,从而使网络能够以较小的计算成本关注大的重要区域。 协调注意力机制有两个连续的步骤:协调信息嵌入和协调注意力生成。首先,池化内核的两个空间范围对每个通道进行水平和垂直编码。在第二步中,对两个池化层的级联输出应用共享的1×1卷积变换函数。然后,坐标注意力将得到的张量拆分为两个独立的张量,以产生具有相同数量的通道注意力向量 ,用于输入X的水平和垂直坐标。这可以写成
Attention Mechanisms in Computer Vision: A Survey(四)_第9张图片
其中 G A P h GAP^h GAPh G A P w GAP^w GAPw表示垂直坐标和水平坐标的池化函数, s h ∈ R C × 1 × W s^h∈ R^{C×1×W} shRC×1×W s w ∈ R C × H × 1 s_w∈ R^{C×H×1} swRC×H×1代表相应的注意权重。 通过协调注意力,网络可以准确地获得目标的位置。这种方法比BAM和CBAM有更大的感受野。与SE块一样,它还模拟了跨通道关系,有效地增强了学习功能的表达能力。由于其轻量级设计和灵活性,它可以轻松地用于 mobile networks的经典构建块。
Attention Mechanisms in Computer Vision: A Survey(四)_第10张图片

(八)、DANet

见博文

(九)、RGA

在关系感知的全局注意力(RGA)中,协调注意力和DANet强调捕捉远程上下文,而Zhang等人则强调成对关系提供的全局结构信息的重要性,并使用它生成注意力特征图。RGA有两种形式,空间RGA(RGA-S)和通道RGA(RGA-C)。RGA-S首先将输入特征映射X重塑为C×(H×W)和成对关系矩阵 R ∈ R ( H × W ) × ( H × W ) R∈ R^{(H×W)×(H×W)} RRH×W×H×W的计算采用
在这里插入图片描述

位置i处的关系向量 r i r_i ri通过在所有位置叠加成对关系来定义:
在这里插入图片描述
空间关系感知特征 y i y_i yi可以写成
在这里插入图片描述
其中 g a v g c g^c_{avg} gavgc表示通·道域中的全局平均池化。最后,位置i的空间注意力得分由在这里插入图片描述
RGA-C与RGA-S的形式相同,只是将输入特征映射作为一组H×W维特征。RGA使用全局关系为每个特征节点生成注意力分数,从而提供有价值的结构信息并显著增强表征能力。RGA-S和RGA-C足够灵活,可用于任何CNN网络;Zhang等人建议按顺序联合使用它们,以更好地捕捉空间和跨通道关系。
Attention Mechanisms in Computer Vision: A Survey(四)_第11张图片
Attention Mechanisms in Computer Vision: A Survey(四)_第12张图片

(十)、Self-Calibrated Convolutions

在分组卷积成功的推动下,Liu等人提出了自校准卷积,作为扩大每个空间位置感受野的一种方法。
自校准卷积与标准卷积一起使用。它首先在通道域中将输入特征X划分为 X 1 X_1 X1 X 2 X_2 X2。自校准卷积首先使用平均池化来减少输入大小并扩大感受野:
在这里插入图片描述
其中r是池化核的大小和步幅。然后使用卷积对通道关系进行建模,并使用双线性插值算子 U p U_p Up对特征图进行上采样:
在这里插入图片描述
接下来,元素相乘完成自校准过程: 在这里插入图片描述
最后,形成的输出特征映射为:
在这里插入图片描述
这种自校准卷积可以扩大网络的接收范围,提高网络的适应性。它在图像分类和某些下游任务(如实例分割、目标检测和关键点检测)中取得了优异的效果。

你可能感兴趣的:(yolo,计算机视觉,cnn,深度学习)