[注意力机制]--Non-Local注意力的变体及应用

自己整理了一下Non-Local注意力机制提出后,后续该注意力机制的变体和在其他领域的应用!由于自己看论文数量有限,欢迎大家补充说明!

一 、 语 义 分 割 : \color{#FF3030}{一、语义分割:}

1.CCnet-Criss-Cross Attention for Semantic Segmentation
[注意力机制]--Non-Local注意力的变体及应用_第1张图片
原Non-Local block操作的计算复杂度为O(HW * HW),本文将Non-Local分解为两个Criss-Cross attention block,相当于只在水平和竖直方向的像素点学习权重值,但是其他像素点的权重对特征提取也有作用,所以采用了递归的方式,计算复杂度降为了O(2 * HW * (H+W-1)),大大节省了内存和显存。且效果比Non-local更好。
[注意力机制]--Non-Local注意力的变体及应用_第2张图片
实验结果:
[注意力机制]--Non-Local注意力的变体及应用_第3张图片

2.DAnet:Dual Attention Network for Scene Segmentation
[注意力机制]--Non-Local注意力的变体及应用_第4张图片
目前基于深度学习的语义分割网络采用multi scale融合或者U-Net的结构去融合低层和高层的语义特征,但是还是没有综合考虑各个位置的联系和相关性。本文以及Non-local模块提出了双注意力模块,更好的挖掘特征位置和通道重要性。
[注意力机制]--Non-Local注意力的变体及应用_第5张图片
[注意力机制]--Non-Local注意力的变体及应用_第6张图片
实验结果:
[注意力机制]--Non-Local注意力的变体及应用_第7张图片
3.ANNN-Asymmetric Non-local Neural Networks for Semantic Segmentation
[注意力机制]--Non-Local注意力的变体及应用_第8张图片
针对non-local模块计算复杂度太高的问题,提出了从Key和Value中采样S个具有表征性的点来减少计算量,如图中时间复杂度从O(N * N)减少到O(N * S)。受到ASPP和PSPnet论文的启发,作者认为可以用金字塔迟化层来提取这些具有表征性的点。
[注意力机制]--Non-Local注意力的变体及应用_第9张图片
论文主体结构是ResNet101+FCN+AFNB+APNB,其中AFNB是一个可以将不同层特征进行融合的模块,APNB中可以将N个采样点减少到S个点,在本文中S被设置为11+33+66+88=110。实验结果也证明了在计算量大大减少的情况,精度并没有损失。
实验结果:
[注意力机制]--Non-Local注意力的变体及应用_第10张图片

二 、 目 标 检 测 : \color{#FF3030}{二、目标检测:}

GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond
[注意力机制]--Non-Local注意力的变体及应用_第11张图片
论文的出发点是发现特征图中不同位置得到的attention maps几乎一致 (业界存在质疑),因此觉得Non-Local模块中O(HW*HW)得到的attention maps没有必要,存在着简化的可能性。因此对non-local block优化。
[注意力机制]--Non-Local注意力的变体及应用_第12张图片
最终优化得到了一个global context (GC) block。结构与SEnet的通道注意力机制很相似,但是多了context model,即全局建模的模块。该模块是嵌入在检测网络的backbone特征提取网络中,实验结果也证明了这个模块的有效性。
[注意力机制]--Non-Local注意力的变体及应用_第13张图片

三 、 图 像 超 分 : \color{#FF3030}{三、图像超分:}

Second-order Attention Network for Single Image Super-Resolution
[注意力机制]--Non-Local注意力的变体及应用_第14张图片
此论文是沿着RCAN论文进行的改进,RCAN论文中最大的创新点就是在图像超分任务中引入了通道注意力机制,本论文创新点之一是将RCAN中基于一阶的通道注意力机制换成了基于二阶统计的注意力机制,此外是第一次将non-local注意力机制引入到图像超分任务中,在深层特征提取的一头一尾加上了最原始的non-local模块,当然介于non-local模块的计算量太大的问题,本文采用了分块non-local 的做法。实验效果方面,个人觉得提升不大,主要是在刷non-local的注意力机制。
[注意力机制]--Non-Local注意力的变体及应用_第15张图片

四 、 图 像 去 雨 : \color{#FF3030}{四、图像去雨:}

Non-locally Enhanced Encoder-Decoder Network for Single Image Deraining
[注意力机制]--Non-Local注意力的变体及应用_第16张图片
去雨和去噪一个很大的不同就是雨的规律性不强,不像去噪那样先拟合出来噪声再去除,而且雨条一般会很长,可能会覆盖整张图片,所以对图像的全局处理更需要,在传统去雨的网络都是通过pooling-UNpooling来增加感受野的问题,本文在此基础上增加了Non-Local Block,充分利用图像的非局部自相似性,在网络结构上采用的是Encorder-Decorder的结构。
[注意力机制]--Non-Local注意力的变体及应用_第17张图片
带有雨图像输入到两个卷积层中用于特征提取,而后输入三个和maxpooling相连接的NEDB密集块,接着对称的输入NEDB并进行uppooling恢复到原始图像大小,再经过两个conv进行图像恢复,整个网络是一个对称的结构,用skip一一连接,形成Encorder-Decorder的结构。而每个NEDB的结构如上。实验结果如下,个人觉得unet结构+引入non-local创新点很足,效果也很好。
[注意力机制]--Non-Local注意力的变体及应用_第18张图片

五 、 文 本 检 测 : \color{#FF3030}{五、文本检测:}

MASTER: Multi-Aspect Non-local Network for Scene Text Recognition
[注意力机制]--Non-Local注意力的变体及应用_第19张图片
本文最大创新点在文本识别中第一次引入全局注意力机制,提出的模块主要来自于gcnet中的gc block,本文对该模块进行了修改,该文将其用于场景文本识别的注意力建模,发现如果使用多个注意力函数,可以取得更好的结果,因此提出了Multi-Aspect 全局上下文建模方法,实验结果如下,可以发现在多个文本识别数据集下,都取得SOTA的效果。
[注意力机制]--Non-Local注意力的变体及应用_第20张图片

你可能感兴趣的:([注意力机制]--Non-Local注意力的变体及应用)