1. Introduction
注意机制起源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类只能注意到所有可见信息的一部分。受这种视觉注意机制的启发,研究者们试图寻找视觉选择性注意模型来模拟人类的视觉感知过程,从而模拟人类在观察图像和视频时的注意分布,并扩展其应用。
以计算机视觉领域为例,深度学习与视觉注意机制相结合的研究大多集中在mask的使用上。mask的原理是将图像数据中的关键特征用另一层新的权值来识别。通过学习和训练,深度神经网络可以学习到每一个新图像中需要注意的区域,从而形成注意。
这个想法进一步发展成两种不同类型的注意:软注意和硬注意。软注意机制是通过梯度下降实现的,具有可微性和连续性。在神经网络中,注意的权重可以通过前向传播和后向反馈来学习。然而,硬注意机制并不是可微分的,它往往是通过强化学习来实现的,并受到利益函数的激励,使模型更加注重某些部分的细节。
本文将分三部分进行介绍:第一部分是视觉选择性注意的计算模型;第二部分是计算机视觉注意机制模型的分类;第三部分是对现有注意机制的总结和展望。
2. Computational Models of Visual Selective Attention 视觉选择性注意力的计算模型
虽然这种活动是主观的,但不可否认的是,内容的性质对选择性注意有影响,这反映了视觉选择性注意计算的自上而下和自下而上的注意加工机制。
目前,对视觉选择性注意建模的研究主要集中在四个方面:如何计算 bottom-up 的显著图;如何描述和表达 up-bottom 的任务和知识;如何将自底向上的信息流与自顶向下的知识流合并如何控制注意力的转移。Itti和Koch基于生物学原理提出了一种自下而上的视觉注意计算模型,该模型有效地模拟了人类的视觉选择性注意机制,是目前应用最广泛的模型[4]。
如图1所示,该模型分为两个部分:显著图的计算以及 attention 区域的选择和转移。显著图计算的核心是每个通道特征的提取和融合策略,这也是整个模型框架的核心。首先,将输入图像分解为彩色、亮度和方向三个多通道图像分量,并建立多分辨率金字塔来表达每个分量。然后,利用模拟人类感官场特征的“中心-外围”算子对多尺度分量图像进行操作,得到12幅颜色特征图、6幅亮度特征图和24幅方位特征图。然后通过归一化线性重叠得到相应的颜色、亮度和方向显著图,并根据这三种不同通道的显著图生成总显著图。最后,通过人工构建的动态神经网络通过显著图选择注意区域。选择的区域是一个以关注焦点为中心的圆,显著图中值较大的点将首先被注意到。
3. The classification of attention mechanism models in computer vision计算机视觉中注意力机制模型的分类
3.1 soft attention:
3.1.1 spatial attention
3.1.2. Channel attention
给每个通道一个权重,显示通道之间的相关性,权重越大,相关性越高,就应该更加关注相应的通道。
一旦得到每个特征通道的权值,将权值应用于每个原始特征通道,根据具体任务学习不同通道的重要性。
通道注意机制的本质在于对各特征之间的重要性进行建模,其权重可以根据不同任务的输入来分配,因此该机制简单有效。
3.1.3. Mixed attention
以CBAM为例。spatial attention和channel attention的混合。
3.1.4. Self attention
在卷积神经网络中,卷积核受到其大小的限制,只能使用局部信息来计算目标像素,因此可能会由于忽略全局信息而导致偏差。如果将feature map中的每个像素视为随机变量,计算配对协方差,则可以根据每个预测像素与图像中其他像素的相似度对其值进行增减。利用相似像素进行训练和预测而忽略不同像素的机制称为 self-attention 机制。
为了实现每个像素级预测的全局参考,Wang等人在CNN中提出了非局部的 self-attention 神经网络,如图5[8]所示。他们的方法是将每个像素视为一个基于像素间预测协方差的随机变量。参与的目标像素是所有像素值的加权和,其中权重是每个像素与目标像素之间的相关性。利用 self-attention 机制,在模型的训练和预测过程中实现全局参考(global reference)。该模型具有较好的偏方差权重(bias-variance weight),使模型更加合理。
3.2. Hard attention
由于 hard attention 能够从输入信息中选择重要特征,因此被认为是一种更有效、更直接的方法。
尽管如稀疏约束的作用在塑造的能力学习代理一直在探索,Attention Agent采取了不同的方式,灵感来源于无意视盲”相关的概念,也就是说,当大脑从事一项任务需要努力,它最关注的元素相关的任务,暂时忽略其他信号。
为了实现这一点,[9]将输入图像分割成几个块,然后基于改进的自我注意体系结构模拟块之间的投票,从而选择一个被认为是重要的子集。在每个时间步中选择相关的块,一旦确定,AttentionAgent将只根据这些块做出决策,而忽略其他块。通常,反向传播被用来优化神经网络但是考虑到Attention Agent包含了不可微的操作,如排序、切片等来生成重要的块,将这些技术应用到训练中并不容易。因此,采用非导数优化算法来克服这一问题,如图6所示。
The upper row: input transforming——滑动窗口将输入图像分割成更小的块,然后将它们平铺以供将来处理。
The middle row: block election——修改后的自我注意模块在块之间投票,生成块重要性向量。
The lower row: action generation- AttentionAgent选择最重要的块,提取相应的特征,并根据它们做出决策。
已经证明AttentionAgent已经成功地学会了注意输入图像中的不同区域。关键块的可视化可以看出agent 如何做出决策,从而证明大多数选择符合人脑的选择和直觉。此外,由于agent也学会了忽略对核心任务不重要的信息,所以可以将其推广到环境稍有改变的任务中。
4. Conclusion
到目前为止,人类视觉的许多认知特征仍有待探索,在人类视觉注意机制领域还没有统一的理论框架可供参考。只有进一步加强对人类注意机制的研究,探索和建模人类视觉在信息处理中的规律,才能更好地应用于计算机信息处理领域。
低级和高级视觉特征的结合,使我们对不同的事物有不同的关注,这些特征的贡献也不同。因此,选择合适的加权方法,使其更符合人眼观察事物的模式,是至关重要的。
人的视觉注意过程是通过自下而上的主要视觉特征处理和自上而下的任务引导相结合来实现的。然而,大多数模型都是以单一的方式处理的。在这种情况下,自底向上和自顶向下的计算模型相结合,可以更好地模拟人类视觉注意的机制,在机器视觉领域具有更广阔的研究前景。
由于添加了时间轴特性,视频比自然图像更加复杂,视频视觉注意力的计算模型也更加有限。在这种情况下,用更高维度的语义来描述视频突出区域中的对象,可以使其更接近人类的视觉,有利于视频的检索和分类等领域。