第7周学习任务:注意力机制论文泛读

本周泛读了关于注意力机制的几篇文章,对于注意力有了一定的了解。

文章目录

  • 【BMVC2018】BAM: Bottleneck Attention Module
    • 创新点
    • 结构图
  • 【CVPR2019】Dual Attention Network for Scene Segmentation
    • 创新点
    • 结构图
  • 【CVPR2020】ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks
    • 创新点
    • 结构图
  • 【CVPR2020】Improving Convolutional Networks with Self-Calibrated Convolutions
    • 创新点
    • 结构图
  • 【ARXIV2105】Pyramid Split Attention
    • 创新点
    • 结构图
  • 【ARXIV2105】Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks.
    • 创新点
    • 结构图
  • 总结

【BMVC2018】BAM: Bottleneck Attention Module

创新点

提出了瓶颈注意力模块(BAM),其沿着通道和空间两个独立的路径进行注意力学习。放置在骨干网络的瓶颈处,得到一个层次关注。

结构图

第7周学习任务:注意力机制论文泛读_第1张图片
模型上边的那个分支是SE Block,进行了全局池化,后接一个带有隐藏层的多层感知机,并进行了通道数的缩小,最后接一个归一化层来调整空间分支输出的尺度。这个分支实现了关于通道的注意力的学习Mc(F)。
下边的那个分支使用了多个卷积层,这里使用了膨胀卷积,多个卷积层的串联,实现了空间维度上更大的接受域,充分学习并得到了关于空间的注意力MS(F)。
最后对二者进行合并,逐项求和,最后使用sigmoid函数,得到一个0-1范围内的最终的三维注意力映射M(F)。

【CVPR2019】Dual Attention Network for Scene Segmentation

创新点

通过使用self-attention机制来捕获上下文依赖,提出了Dual Attention Networks(DANet)来自适应地整合局部特征和全局依赖。
在传统的基于膨胀卷积的FCN上添加了两种注意力模块,分别对空间维度和通道维度的语义相互关联进行建模。
位置注意力模块通过对所有位置的特征加权求和,选择性地聚集每个位置的特征,无论距离远近,相似的特征都会相互关联。
同时,通道注意力模块整合所有通道特征图中的相关特征,有选择性地强调相互关联的通道图。

结构图

第7周学习任务:注意力机制论文泛读_第2张图片
空间维度注意力:提出了PAM模块,对于网络输出的局部特征A(CHW),首先利用三个卷积层后得到B,C,D三个特征map,然后对B,C,D进行reshape到(CN),然后将B转置与C相乘后,再通过softmax得到spatial attention map S(N,N),接着将S的转置与D矩阵乘后,将结果reshape到(CHW),乘以一个尺度因子后再加上原始输入图像后得到最后的输出map E。
通道维度注意力:先对A进行reshape到(C
N),然后A与A的转置进行矩阵乘,经过softmax后得到通道间的map X (C * C),之后再乘以A(C*N)得到的输出乘以尺度因子后与原图相加后得到最后的输出E。这里主要是将相似度大的通道进行了整合,改进了语义特征表达,建模了不同通道间的长距离依赖。

【CVPR2020】ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

创新点

自SE-Block出现以来,通道注意力有效地提升了CNN地性能,但是一系列的网络模型逐渐向愈发复杂化的方向发展。为了平衡性能和复杂度,本文设计了一种超轻量级的注意力模块-ECA Module(Efficient Channel Attention)来提升大型CNN的性能。
相比于SE Block中较多的参数,ECA-Net只包含k个参数(k<=9),SE Block中使用了降低通道维数的操作来降低运算成本,但是经过实践证明后,降低通道维度会丢失通道间的交互性能。
本位使用了一种局部的跨通道交互策略,通过一维卷积快速实现,达到避免降维的目的,并设计了一种自适应的一维卷积函数加速训练收敛。

结构图

第7周学习任务:注意力机制论文泛读_第3张图片
在经过SE的全局平均池化后,ECA-Module后考虑每个通道及其k个近邻,通过一维卷积快速完成通道权重的计算,k就代表了在一个通道权重的计算过程中参与的近邻数目,k的大小很明显会影响ECA的计算效率和有效性,那么k应该怎么设置才更加合理?
本文设计了一种自适应计算k的函数。很明显k和通道C的规模有关,通常情况下大尺寸便于捕捉长程依赖关系,小尺寸倾向于捕捉短程交互,换言之,k和C之间存在一种映射关系,本文以指数函数来描绘这种非线性映射关系。
在这里插入图片描述
由于通道数!通常为2的指数被,因此,k最终可由下式决定:
在这里插入图片描述

【CVPR2020】Improving Convolutional Networks with Self-Calibrated Convolutions

创新点

本文提出了一种新颖的自校准卷积,该卷积通过内部通信显著拓展了每个卷积层的视场,从而丰富了输出功能,特别的是,与使用小卷积核(3*3)融合空间和通道方向信息的标准卷积不同,自校准卷积通过新颖的自我自适应地围绕每个空间位置建立了长距离空间和通道间依赖性的校准操作。因此,其可以通过显示合并更丰富的信息来帮助CNN生成更多辨识性的表示。
本文引入了自校准卷积,通过每层增加基本的卷积变换,作为一种帮助卷积网络学习鉴别表示的有效方法,与分组卷积类似,它将特定层的卷积过滤器分离为多个部分,但不一定均匀,每个部分中的过滤器以异构的方式使用,具体来说,自校准卷积首先通过下采样将输入转换为低维嵌入,而不是均匀地对原始空间的输入进行所有的卷积,采用一个滤波器部分变换后的低维嵌入来校正另一部分滤波器的卷积变换,得益于这种不均匀的卷积和滤波之间的通信,每个位置的接受域都扩大。

结构图

第7周学习任务:注意力机制论文泛读_第4张图片
为了有效地收集每个空间位置的丰富的上下文信息,论文提出了在两个不同的尺度空间中进行卷积特征变换:原始尺度空间中的特征图(输入共享相同的分辨率和下采样后的较小的潜在空间(自校准),利用下采样后,特征具有较大的视场,因此,在较小的潜在空间中进行变换后的嵌入将用作参考,以指导原始特征空间中的特征变换过程)。

【ARXIV2105】Pyramid Split Attention

创新点

本文提出了一种轻量级、高效的注意力方法-金字塔挤压注意力(PSA)模块。通过将ResNet瓶颈块中的3*3卷积替换为PSA模块,得到了一种新的表征块,即高效金字塔注意力(Efficient Pyramid Squeeze Attention,EPSA)。

结构图

第7周学习任务:注意力机制论文泛读_第5张图片
PSA模块主要由四个步骤实现:
首先,通过所提出的Squeeze and Concat(SPC)模块,获得通道上的多尺度特征映射。
其次,利用SeWeight模块提取不同比例尺度的特征图的注意力,得到面向通道的注意力。
第三,利用softmax重新标定信道注意力向量,得到多尺度信道重标定权值。
第四,将重新标定的信道注意力向量和相应的特征图进行元素乘操作。
最后,可以得到更分度的多尺度特征信息的细化特征图作为输出。
第7周学习任务:注意力机制论文泛读_第6张图片
可以看到,PSA模块中实现多尺度特征提取的关键点是SPC。
为了在不增加计算代价的情况下处理不同核尺度的输入张量,引入了一种群卷积方法,并将其应用于卷积核,此外,我们设计了一种新的准则来选择群的大小而不增加参数的数量,多尺度核大小和群分组大小之间的关系为:
G=2(k-1)/2,其中k是核大小,G是组数,特别的是,当k=3时,G=1。
上图展示了多尺度特征图的生成过程。
第7周学习任务:注意力机制论文泛读_第7张图片
这里使用所提出的PSA Module来替换3*3卷积来实现更好的性能。

【ARXIV2105】Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks.

创新点

self-attention在当下扮演了愈加重要的角色,其可以通过计算同一个样本所有位置之间的相关性,来捕获长距离依赖,然而,其计算复杂度是平方级的,且忽略了不同样本之间的联系。
针对上述缺点,本文提出了一个新颖的注意力方法-External Attention(EA),仅由两个线性层核两个归一化层构造,且具备线性的计算复杂度,此外,作者还进一步提出了Multi-head EA,对标multi-head SA,还提出了一个纯MLP的架构EAMLP。

结构图

第7周学习任务:注意力机制论文泛读_第8张图片
相比于SA,EA使用一个外部矩阵M来建模第i个像素和第j行之间的相似性,且M是可学习的,大小可变的,同时M还可以随着训练过程进行建模整个数据集不同样本之间的联系,由此,EA就解决了SA的上述两个缺点。
在实际应用中,M分为两个:Mk,Mv分别对应SA中的k和v。
第7周学习任务:注意力机制论文泛读_第9张图片

总结

本周的阅读任务还差一篇没有读完,但是通过对这几篇文章的泛读,了解了当下大家研究的重点,即对于空间和通道注意力这两个范畴进行融合或者是更新,以达到更全面的上下文信息和更优的表现。
剩余的ResT: An Efficient Transformer for Visual Recognition会在后续进行添加上的。
对于本周泛读的情况,仅仅是掌握了文章的想法和内容推导,但是对于why和code没有更深的了解。

你可能感兴趣的:(跟李沐学AI-动手学深度学习,1024程序员节)