计算机视觉中的注意力机制

        最近在阅读一些论文寻找一些新思路,偶然看到注意力机制方面的一些资料,之前读研的时候发表小论文就想过将注意力机制添加到模型当中作为改进,今天这篇文章就重新梳理一下计算机视觉中的注意力机制。 计算机视觉中的注意力机制_第1张图片

 如果看到这样一张图片,首先会想到什么?

我觉得应该是小孩,蛋糕和气球,那么为什么第一反应会是这样呢?

其实这是属于生理结构问题,实现这一能力的原因是人类视网膜的不同部位具有不一样的信息处理能力,即不同部分的敏锐度( Acuity )不同,人类视网膜中央凹部位具有最高的敏锐度。为了合理利用有限的视觉信息处理资源,人类需要选择视觉区域中的特定部分,然后重点关注它

其实注意力机制最早是应用在自然语言处理的领域,那么在计算机视觉中则要换一种想法去理解。需要从特征空间的角度解析cv中的注意力机制,其原理是赋予空间中不同通道或区域以不同的权重,从而使得网络专注与更重要的信息的提取

这里会有疑问:

神经网络在训练的时候,只要往正确的方向迭代,计算损失返回梯度不就自然会赋予卷积核中的参数以不同的值,这样难道不会在通道域或空间域产生不同的权重吗?为什么还需要注意力机制?

答案是:

这因为卷积核上的不同权重参数是定域的,即其只能在其感受野内形成”小注意力“,虽然感受野会随着神经网络的多结构逐渐变大,但是其对于浅层和中层的参数更新却是间接的、微弱的。而注意力机制做的工作则是关注所有通道或者整个空间的信息,去给予它们重要的程度。所以综合来看,卷积只能归纳为一种特殊的注意力模块。

计算机视觉中的注意力机制一般可以分为通道域,空间域还有混合域,但其实还有其他的领域,这里给出一个大概划分:

计算机视觉中的注意力机制_第2张图片

 这张图来自一篇计算机视觉注意力机制论文综述:

Attention Mechanisms in Computer Vision:A Survey

你可能感兴趣的:(计算机视觉,深度学习,人工智能)