深度学习——注意力机制

深度学习——注意力机制_第1张图片
什么是注意力机制?
人第一眼看上面的图会首先注意到鹰,而不会太重视天空背景。然而,计算机在处理图像的时候是所有的图像内容同等看待,不会重点关注比较重要的信息。因此,人们提出了一种注意力机制,使计算机系统也能够关注重点信息而忽略不重要信息。

系统学会注意力——忽略无关信息而关注重点信息,提高处理效率和质量

注意力机制分为两类:

软注意力:关注区域或通道,具有确定性,可微性,能够用于网络学习的反向传播。

强注意力:关注每一个点,每一个点都可能延伸成重点区域,并且是动态变化的,故而具有不确定性,不可微性,主要用于强化学习。

主要介绍软注意力机制。强注意力机制不做介绍。

1.空间域注意力
根据feature map的空间位置特征差异,对重要区域进行定位,然后采样提取重要信息,忽略次要信息。
原论文:Spatial Transformer Networks
利用空间变换提取重要信息。
深度学习——注意力机制_第2张图片
如上图是一个空间转换模块(可以作为基础模块嵌入其他网络中),特征U经过定位子网络(Localisation net)提取位置信息θ,然后生成网格对U进行采样。输出局部重点信息V。

深度学习——注意力机制_第3张图片
例如:(a)是输入,(b)是采样网格 ,(c)是输出

2.通道域注意力
根据feature map的各通道差异性,计算各通道的权重值,权重值代表通道的重要程度。权重值与feature map 作乘积。下面是实例:
原论文:Squeeze-and-Excitation Networks
1.主要内容:提出了“Squeeze-and Excitation” (SE) block。SE模块能够根据卷积通道之间的相互依赖关系增强网络的特征表现能力,称为特征重校正。SE模块能够在全局信息中筛选并强调重要信息,也是注意力机制的一种。

2.SE block的主要结构
深度学习——注意力机制_第4张图片
假设有X到U的卷积运算,即:
在这里插入图片描述
对于U来说,H, W,C分别为高,宽,通道数。SE block的主要运算操作在U上,分为三步:

一,挤压运算(Squeeze)
在这里插入图片描述
即一个全局池化,将含全局信息的U压缩成1×1×C。

二,激励运算(Excitation)
在这里插入图片描述
即两个全卷积层+两个激活层构成。z为挤压运算结果,W1为第一全卷积层权重,δ为relu激活函数,W2为第二全卷积层权重,σ为sigmoid激活函数。(注:W1全卷积层有一个缩减比率r )

三,乘积运算

在这里插入图片描述

激励运算结果与U相乘,相当于给U的各个通道乘上了一个权重值,这个权重值反映了通道所含信息重要程度。

3.SE block结构的嵌入使用

SE block具有轻量级,计算消耗小的特点,能够被轻易嵌入到其他优秀网络模型中,以提高网络模型的特征表现力。如下图是将SE block嵌入残差块中的结构图:
深度学习——注意力机制_第5张图片

3.混合域注意力
混合域注意力机制是在空间域和通道域上同时作用。即,feature map 的空间位置特征和通道特征同时参与计算,生成注意力掩膜mask(称attention map或weight map),注意力掩膜mask的权重代表了不同特征的重要程度,然后mask与feature map 作乘积。下面是两个实例:
原论文:Attention to Scale: Scale-aware Semantic image Segmentation
深度学习——注意力机制_第6张图片
深度学习——注意力机制_第7张图片
(a)深度卷积网络(由全卷积网络构成)提取不同尺度的特征,然后将不同尺度特征进行融合。
(b)将深度卷积网络提取到的特征输入到注意力模型中。注意力模型学习输出weight map,然后将weight map 分解为两个尺度的weight map。得到weight map包含了图像不同区域不同尺度的信息重要程度差异。
最后将不同尺度特征进行融合时,分别乘以对应尺度的weight,然后相加即得最终的Score。
在这里插入图片描述

原论文:Residual Attention Network for Image Classification

1.主要内容:
提出了残差注意力深度模型网络。
该网络具有以下特点:1)其由多个注意力模块堆叠而成,每个注意力模块能够捕获不同的注意类型。2)采用残差连接,避免梯度消失,能够扩展很大的深度,且能完成端到端的训练。

2.主体结构
深度学习——注意力机制_第8张图片
如上图,有三个Attention Module构成。
每一个Attention Module 又由特征提取部分T和掩膜提取部分M构成。所以注意力模块的输出H为特征T和掩膜M的乘积,即:
在这里插入图片描述
掩膜提取部分的结构:
深度学习——注意力机制_第9张图片

你可能感兴趣的:(Deep,Learning,网络,卷积,人工智能,深度学习,机器学习)