对视觉显著性检测(Saliency Object Detection)中Channel Attention的一些总结

因为最近的paper涉及,所以对channel attention进行了了解,比较浅显,但是以此篇博客记录,之后有相关进展,也会更新。已经有很多相关的文章对Attention的本质,原理进行介绍。例如:
Attention综述:基础原理、变种和最近研究
我挑一些我学习过程中觉得重要的点。

Attention 本质

首先,Attention的本质是一个查询(query)到一系列(键key-值value)对的映射,也就是一个寻址过程(addressing)。
计算Attention的过程:
1.将query和每一个key进行相似度计算得到权重
2.对权重进行归一化
3.权重和相应键值value进行加权求和得到Attention
我知道这样解释了一番看起来还是非常生涩难懂。但是请记住,Attention的作用是从大量信息中将一些重要的点筛选出来,忽略其他不重要的点
结合一张图来说:

对视觉显著性检测(Saliency Object Detection)中Channel Attention的一些总结_第1张图片
在视觉显著中,将query看作特征图,计算query和虚线框source中的每个key的相似度(相似度可以通过内积相似度、余弦相似度或者拼接相似度得到得到)。根据相似度可以得到每个key对应value的权重系数。通常,为了限制权重的大小,会将权值进行归一化或者缩放(常采用softmax函数或者用sigmoid函数火tanh函数进行单独归一化)。最后对value进行加权求和,就得到了Attention的数值。
可以用一个公式来表示以上的过程:
A t t e n t i o n ( q u e r y , s o u r c e ) = ∑ i = 1 L x S i m i l a r i t y ( q u e r y , k e y i ) ∗ v a l u e i Attention(query, source) = \sum_{i=1}^{L_x} Similarity(query, key_i) * value_i Attention(query,source)=i=1LxSimilarity(query,keyi)valuei
Lx代表了Source的长度。权重越大,attention就越聚焦到其对应的value值上,也就是权重代表了信息的重要性,value是其对应的信息。

Channel Attention

Attention一般有Spatial Attention和Channel Attention两种。接下来要说的Channel Attention是Attention的其中一种。Channel Attention是作用在channel尺度上的,给不同的通道特征加权。对于一个C×H×W的特征图来说,channel attention的C权重是不同的,而平面H*W的权重相同。要做的就是对每一个C,在Channel的维度上,学到不同的权重。

Channel Attention Model

这一节主要说的是文章Dual Attention Network for Scene Segmentation中的Channel Attention Model(CAM)。CAM捕获了channel之间的相互依赖关系,更关注特征图中实体区域的贡献,减弱背景的影响。
对视觉显著性检测(Saliency Object Detection)中Channel Attention的一些总结_第2张图片
CAM使用类似self attention机制(输入=输出的这种特殊情况下的注意力计算机制。query,key和value一样)来得到channel图之间的相似度,再使用channel图的加权来更新。最终得到一个计算注意力的矩阵,起到加强特征的作用。
对视觉显著性检测(Saliency Object Detection)中Channel Attention的一些总结_第3张图片

下面对CAM进行细节分析,参考上图:
① 把Feature A的维度reshape为C×N (N=H×W)并得到A的转置矩阵。
② 将①与②进行element-wise的矩阵相乘。
③ 经过softmax,得到注意力图矩阵X
④ 把XT与A做矩阵乘法,得到维度C*R
⑤ reshape为C×H×W。
⑥ 乘上参数γ,与A相加,得到输出E。
再结合具体代码:

class CAM_Module(Module):
    """ Channel attention module"""
    def __init__(self, in_dim):
        super(CAM_Module, self).__init__()
        self.chanel_in = in_dim

        self.gamma = Parameter(torch.zeros(1))
        self.softmax  = Softmax(dim=-1)
    def forward(self,x):
        """
            inputs :
                x : input feature maps( B X C X H X W)
            returns :
                out : attention value + input feature
                attention: B X C X C
        """
        m_batchsize, C, height, width = x.size()
        proj_query = x.view(m_batchsize, C, -1) 
        #view()将tensor维度变为指定维度,-1表示剩下的值一起构成一个维度
        proj_key = x.view(m_batchsize, C, -1).permute(0, 2, 1)
        #permute()做维度换位
        energy = torch.bmm(proj_query, proj_key)
        #torch.bmm()做矩阵乘法
        energy_new = torch.max(energy, -1, keepdim=True)[0].expand_as(energy)-energy
        #这句话防止梯度爆炸
        #expand_as()把一个tensor变成和函数括号内一样形状的tensor
        attention = self.softmax(energy_new)
        proj_value = x.view(m_batchsize, C, -1)

        out = torch.bmm(attention, proj_value)
        out = out.view(m_batchsize, C, height, width)

        out = self.gamma*out + x
        return out

你可能感兴趣的:(计算机视觉,视觉显著,论文阅读)