CBAM学习笔记

CBAM学习笔记

CBAM: Convolutional Block Attention Module

Abstract

我们提出了卷积块注意模块(CBAM),这是一种用于前馈卷积神经网络的简单而有效的注意模块。给定一个中间特征图,我们的模块沿两个独立的维度(通道和空间)顺序推断注意力图,然后将注意力图乘以输入特征图以进行自适应特征细化。由于CBAM是一个轻量级的通用模块,它可以无缝集成到任何CNN架构中,开销可以忽略不计,并且可以与基础CNN一起进行端到端的培训。我们通过在ImageNet-1K、MS COCO检测和VOC 2007检测数据集上的大量实验来验证我们的CBAM。我们的实验表明,各种模型在分类和检测性能方面都有一致的改进,证明了CBAM的广泛适用性。代码和模型将公开提供。

关键词: Object recognition · Attention mechanism Gated convolution

1 Introduction

卷积神经网络(CNN)凭借其丰富的表示能力显著提升了视觉任务的性能[1-3]。为了提高CNN的性能,最近的研究主要研究了网络的三个重要因素:深度、宽度、n和基数。

从LeNet架构[4]到a r的残差式网络[5-8],网络因其丰富的代表性而变得更深。VGGNet[9]表明,具有相同形状的堆叠块可以得到公平的结果。遵循同样的精神,ResNet[5]将剩余块的相同拓扑与skip连接堆叠在一起,以构建一个非常深入的架构。GoogLeNet[10]表明,宽度是提高模型性能的另一个重要因素。Zagoruyko和Komodakis[6]建议在ResNet架构的基础上增加网络的宽度。他们已经表明,在CIF AR基准上,具有增加宽度的28层ResNet可以优于具有1001层的极深ResNet。Exception[11]和ResNeXt[7]提出了增加网络基数的方法。他们的经验表明,基数不仅节省了参数总数,而且比其他两个因素(深度和宽度)具有更强的表示能力。

除了这些因素外,我们还研究了架构设计的另一个方面,即注意力。先前的文献[12-17]对注意力的重要性进行了广泛的研究。注意力不仅告诉我们应该把注意力集中在哪里,还可以提高兴趣的表达。我们的目标是通过使用注意力机制来提高表征能力:关注重要特征并抑制不必要的特征。在本文中,我们提出了一个新的网络模块,称为“卷积块注意模块”。由于卷积运算通过将跨通道信息和空间信息混合在一起来提取信息特征,因此我们采用我们的模块来强调沿通道和空间轴这两个主要维度的有意义特征。为了实现这一点,我们依次应用通道和空间注意力模块(如图1所示),以便每个分支可以分别在通道轴和空间轴上学习“什么”和“在哪里”。因此,我们的模块通过学习要强调或抑制的信息,有效地帮助信息在网络中流动。

CBAM学习笔记_第1张图片

在ImageNet-1K数据集中,通过插入我们的微小模块,我们从各种基线网络中获得了准确性改进,揭示了CBAM的功效。我们使用梯度CAM[18]可视化训练模型,并观察到CBA增强网络比其基线网络更适合于目标对象。然后,我们进行用户研究,定量评估模型可解释性的改进。我们表明,使用CBAM可以同时获得更好的性能和更好的可解释性。考虑到这一点,我们推测性能提升来自对不相关杂波的准确注意和降噪。最后,我们在MS COCO和VOC 2007数据集上验证了目标检测的性能改进,证明了CBAM的广泛适用性。由于我们精心设计了重量轻的模块,因此在大多数情况下,参数和计算的开销可以忽略不计。

捐款我们的主要贡献是三倍。

1.我们提出了一种简单而有效的注意模块(CBAM),可以广泛应用于提高CNN的表征能力。

2.我们通过广泛的消融研究验证了注意力模块的有效性。

3.我们验证了通过插入我们的轻量级模块,在多个基准(ImageNet-1K、MS COCO和VOC 2007)上大大提高了各种网络的性能。

2 Related Work

Network Engineering

“Network Engineering”一直是最重要的视觉研究之一,因为设计良好的网络可以确保在各种应用中显著提高性能。自从成功实现大规模CNN以来,已经提出了广泛的体系结构[19]。一种直观且简单的扩展方法是增加神经网络的深度[9]。Szegedy等人[10]介绍了一种使用多分支架构的深度初始网络,其中每个分支都经过仔细定制。虽然由于梯度传播的困难,深度的原始增加达到饱和,但ResNet[5]提出了一种简单的身份跳过连接,以缓解深度网络的优化问题。基于ResNet架构,开发了各种模型,如WideResNet[6]、Inception ResNet[8]和ResNeXt[7]。WideResNet[6]提出了一种具有更多卷积滤波器和减少深度的残差网络。金字塔网[20]是宽带网的严格推广,其中网络的宽度逐渐增加。ResNeXt[7]建议使用分组卷积,并表明增加基数可以提高分类精度。最近,黄等人[21]提出了一种新的架构,即DenseNet。它迭代地将输入特征与输出特征连接起来,使每个卷积块能够接收来自所有先前块的原始信息。虽然大多数最近的网络工程方法主要针对三个因素:深度[5,9,10,19]、宽度[6,8,10,22]和基数[7,11],但我们关注的是另一个方面,“注意力”,这是人类视觉系统的一个奇特方面。

Attention Mechanism

众所周知,注意力在人类感知中起着重要作用[23-25]。人类视觉系统的一个重要特性是,人们不会试图同时处理整个场景。相反,为了更好地捕捉视觉结构,人类利用了一系列的部分瞥见,并有选择地聚焦于突出部分[26]。

最近,有几次尝试[27,28]将注意力处理结合起来,以提高CNN在大规模分类任务中的性能。 王等人[27]提出剩余注意力网络,使用编码器式注意力模块。通过细化特征映射,该网络不仅性能良好,而且对噪声输入具有鲁棒性。我们没有直接计算3D注意力图,而是将通道注意力和空间注意力的学习过程分别分解。三维特征图的单独注意力生成过程具有更少的计算和参数开销,因此可以用作现有基础CNN架构的即插即用模块。

与我们的工作更接近的是,胡等人[28]引入了一个紧凑的模块来利用通道间的关系。在挤压和激发模块中,他们使用全局平均池特征来计算通道注意**。然而,我们表明,为了推断精细通道注意力,这些是次优特征,我们建议也使用最大池特征**。他们还忽略了空间注意力,空间注意力在决定注意力的“位置”方面起着重要作用,如[29]所示。在我们的CBAM中,我们利用了基于有效架构的空间和通道注意,并实证验证了利用两者优于仅使用通道注意[28]。此外,我们的经验表明,我们的模块在检测任务(MS-COCO和VOC)中是有效的。特别是,我们只需将我们的模块放置在VOC2007测试集中现有的单次探测器[30]的顶部,即可实现最先进的性能。

同时,BAM[31]采用了类似的方法,将3D注意力地图推理分解为通道和空间**。他们在网络的每个瓶颈处放置BAM模块**,而我们在每个卷积块处插入。

3 Convolutional Block Attention Module

给定中间特征映射 F ∈ R C × H × W F∈ R^{C×H×W} FRC×H×W为输入,CBAM依次推导出一个一维通道注意图 M c ∈ R C × 1 × 1 M_c∈ R^{C×1×1} McRC×1×12D空间注意力图 M s ∈ R 1 × H × W M_s∈ R^{1×H×W} MsR1×H×W,如图1所示。整体注意力过程可以总结为:

CBAM学习笔记_第2张图片

哪里⊗ 表示元素乘法。在乘法过程中,相应地广播(复制)注意力值:通道注意力值沿空间维度广播,反之亦然。 F " F^" F"是最终的精细输出。图2描述了每个注意力图的计算过程。下面介绍了每个注意力模块的详细信息。

CBAM学习笔记_第3张图片

Channel Attention Module

我们利用特征的通道间关系生成通道注意力图。由于特征图的每个通道都被视为特征检测器[32],通道注意力集中在给定输入图像的“什么”是有意义的。为了有效地计算通道注意力,我们压缩了输入特征映射的空间维度。到目前为止,为了聚合空间信息,通常采用平均池。周等[33]建议使用它来有效地学习目标对象的范围,Hu等人[28]在他们的注意力模块中采用它来计算空间统计。除了之前的工作之外,我们认为最大池收集了另一条关于不同物体特征的重要线索,以推断更精细的通道注意。因此,我们同时使用平均池和最大池特征。我们根据经验证实,利用这两种特征大大提高了网络的表示能力,而不是单独使用每种特征(见第4.1节),这表明了我们设计选择的有效性。我们将在下面描述详细的操作。

我们首先通过使用平均池和最大池操作来聚合特征地图的空间信息,生成两个不同的空间上下文描述符: F a v g c F^c_{avg} Favgc F m a x c F^c_{max} Fmaxc,分别表示平均池特征和最大池特征。然后将这两个描述符转发到共享网络,以生成我们的通道注意力图 M c ∈ R C × 1 × 1 M_c∈ R^{C×1×1} McRC×1×1。共享网络由具有一个隐藏层的多层感知器(MLP)组成。为了减少参数开销,将隐藏激活大小设置为 R C / r × 1 × 1 R^{C/r×1×1} RC/r×1×1,其中r是还原比。将共享网络应用于每个描述符后,我们使用元素求和合并输出特征向量。简言之,信道注意力的计算如下:

image-20220727092053329

其中σ表示sigmoid函数, W 0 ∈ R C / r × C W_0∈ R^{C/r×C} W0RC/r×C,and W 1 ∈ R C × C / r W_1∈ R^{C×C/r} W1RC×C/r。注意,MLP权重W0和W1对于两个输入都是共享的,并且ReLU激活函数后跟W0。

Spatial Attention Module.

我们利用特征之间的空间关系生成空间注意力图。与通道注意不同的是,空间注意侧重于“where”是一个信息部分,它是对通道注意的补充。为了计算空间注意力,我们首先沿通道轴应用平均池和最大池操作,并将它们连接起来以生成有效的特征描述符。沿通道轴应用池操作可以有效地突出显示信息区域[34]。在级联特征描述符上,我们应用卷积层生成空间注意力图 M s ( F ) ∈ R H × W M_s(F)∈ R^{H×W} MsFRH×W编码强调或抑制的位置。我们将在下面描述详细的操作。

我们通过使用两个池操作来聚合特征映射的通道信息,生成两个2D映射: F a v g s ∈ R 1 × H × W F^s_{avg}∈ R^{1×H×W} FavgsR1×H×W F m a x s ∈ R 1 × H × W F^s_{max}∈ R^{1×H×W} FmaxsR1×H×W。每个表示通道中的平均池特征和最大池特征。然后通过标准卷积层连接和卷积,生成2D空间注意力图。简而言之,空间注意力计算为:

image-20220727092613857

其中σ表示sigmoid函数, f 7 × 7 f^{7×7} f7×7表示卷积运算,滤波器大小为7×7。

Arrangement of Attention Modules

给定一个输入图像,通道和空间两个注意力模块计算互补注意力,分别关注“什么”和“哪里”。考虑到这一点,两个模块可以并行或顺序放置。我们发现,顺序排列比平行排列的结果更好。对于顺序过程的安排,我们的实验结果表明,通道一阶略优于空间一阶。我们将在第节讨论网络工程的实验结果。4.1.

4 Experiments

CBAM学习笔记_第4张图片

CBAM学习笔记_第5张图片

CBAM学习笔记_第6张图片

CBAM学习笔记_第7张图片

CBAM学习笔记_第8张图片

CBAM学习笔记_第9张图片

CBAM学习笔记_第10张图片

CBAM学习笔记_第11张图片

CBAM学习笔记_第12张图片

CBAM学习笔记_第13张图片

CBAM学习笔记_第14张图片

CBAM学习笔记_第15张图片

5 Conclusion

我们提出了卷积块注意模块(CBAM),这是一种提高CNN网络表示能力的新方法。我们将基于注意力的特征细化应用于两个不同的模块,通道和空间,并在保持较小开销的同时实现了相当大的性能改进。对于通道注意力,我们建议使用最大池特征和平均池特征,从而产生比SE更精细的注意力[28]。我们通过利用空间注意力进一步提高了性能。最后一个模块(CBAM)学习强调或抑制的内容和位置,并有效地细化中间特征。为了验证其有效性,我们使用各种最先进的模型进行了广泛的实验,并确认CBAM在三个不同的基准数据集(ImageNet1K、MS COCO和VOC 2007)上优于所有基线。此外,我们可视化了该模块如何准确地 推断给定的输入图像。有趣的是,我们观察到,我们的模块诱导网络正确地聚焦于目标对象。我们希望CBAM成为各种网络架构的重要组成部分。

你可能感兴趣的:(经典论文阅读,深度学习环境,深度学习,学习,深度学习,人工智能)