显著性检测是计算机视觉领域的基本挑战之一,怎么有效去提取特征非常关键,目前的一些方法主要都是采用多尺度卷积提取特征的方法,然而有些特征对于显著性检测是没有作用的,有的会引起干扰。这篇文章旨在解决这一问题,提出一种金字塔特征注意网络,重点关注有效的高层上下文特征和低层次的空间结构特征。
首先作者设计了上下文感知金字塔特征提取模块(CPFE)用于多尺度高层次特征映射来获得丰富的上下文特征,其次采用CPFE的特征映射后的通道注意(CA)和低层次特征映射后的空间注意力(SA),然后将CA和SA的输出融合在一起,最后用一种边缘保留损失来指导网络学习更详细的边界定位信息。
目前最有效的显著性检测方法是基于FCN的。FCN将多个卷积层和池化层叠加起来,逐步增加接收域,生成高级语义信息,在显著性检测中起着至关重要的作用,然而池化层缩小了特征映射的大小,并恶化了显著对象的边界。
有些网络用手工设计特征来保护突出物体的边界,提取手工特征来计算超像素的显著值。通过手工艺特征将图像划分为区域。 在生成显著性图时,手工艺特征和CNN高级特征是互补的,但在这些方法中分开提取。难以有效地融合单独提取的互补特征,此外,手工工艺特征提取是一个耗时的过程。
除了手工特征外,一些研究发现来自网络不同层次的特征也是互补的,并整合了多尺度特征进行显著性检测。更具体地说,深层的特征通常包含全局上下文感知信息,这些信息适合于正确定位显著区域。浅层地物包含了适合边界定位的空间结构细节。这些方法融合了不同尺度的特征,没有考虑不同尺度特征对显著性的不同贡献,对显著性检测不是最优的。为了克服这些问题,在显著性检测网络中引入了注意力模型[45]和门函数[42]。然而,这些方法忽略了高级和低级特征的不同特征,可能会影响有效特征的提取。
本文提出了一种新的显著目标检测方法–金字塔特征注意力(PFA)网络。考虑到不同层次特征的不同特点(图1(c,e)),来自低层次特征的显著图包含很多噪声,而来自高层次特征的显著图只得到一个近似的面积。因此,对于高层特征,受SIFT[23]特征提取算法的启发,设计了上下文感知金字塔特征提取(CPFE)模块来获取多尺度、多感受域的高层特征,然后利用通道注意(CA)选择合适的尺度和感受域来生成显著区域。在训练过程中,CA给对显著性检测起重要作用的通道赋予较大的权重(图1(F))。为了细化显著区域的边界,我们将低层特征与边缘信息进行融合。但并不是所有的边缘信息都能有效地细化显著图,我们希望将重点放在显著对象和背景之间的边界上。因此,我们使用空间注意力来更好地聚焦于有效的低层特征,并获得清晰的显著边界(图1(D))。在对不同的注意机制进行处理后,高层特征和低层特征是互补感知的,适合生成显著图。另外,与以往的显著性检测方法不同,本文提出了边缘保持损失来引导网络在边界定位中学习更详细的信息。综合以上考虑,本文提出的PFA网络方法能够生成较好的显著性图。
简而言之,本文的主要贡献如下:
1.提出了一种用于图像显著性检测的金字塔特征注意力(PFA)网络。对于高层特征,我们采用上下文感知的金字塔特征提取模块和通道关注模块来捕捉丰富的上下文信息。对于低层特征,我们采用空间注意模块过滤掉一些背景细节。
2.设计了一种新的边缘保持损失,引导网络在边界定位中学习更详细的信息。
3.提出的模型在几个具有挑战性的数据集上达到了最先进的水平。实验证明了该方法的有效性和优越性。
在过去的十年中,存在许多用于显著性检测的方法。早期的方法[5,38,39,17]根据手工制作的特征估计显著价值。这些方法检测具有类似人类的直观感觉和启发式先验的显著对象,例如颜色对比度[5]、边界背景[38,39]和中心先验[17]。众所周知,这些直接技术是友好的,可以保持良好的图像结构。然而,手工特征和先验知识很难捕捉到关于对象的高层和全局语义知识。近年来,针对不同的网络体系结构,在显著性检测方面做了大量的工作。一些实验[15,18,29]表明,深层的高层特征编码用于获得对象的抽象描述的语义信息,而浅层的低级特征保持用于重建对象边界的空间细节(图1(c,e))。相应地,一些工作将多层次特征引入显著性检测。侯等人[15]提出了一种通过引入短连接到HED体系结构内的跳跃层结构的显著性方法。Wang等人[31]提出了一种基于递归完全卷积网络(RFCN)的显著性检测方法。罗等人[24]通过多分辨率网格结构将局部信息和全局信息相结合。张某等人[43]通过直接连接来自高级别和低级别的特征地图来聚合多级特征。张某等人[42]提出了一种双向消息传递模块,消息可以通过闸机功能相互控制进行传递。然而,某些特征可能会对显著性检测造成干扰。如何提取各种特征并选择有效的特征成为显著性检测中的一个重要问题。
注意机制已经成功地应用于各种任务中,例如机器翻译[11]、对象识别[25]、图像字幕[3、36]、视觉问题回答[34、41]和姿势估计[6]。Chu等人[6]提出了一种端到端的人体姿态估计框架,提出了一种具有多上下文注意机制的网络模型。Chen等人[3]提出了一种SCA-CNN网络,该网络融合了CNN中的空间和通道关注度,用于图像字幕。Zhang等人[45]提出了一种渐进式注意引导网络,该网络通过通道和空间注意机制依次生成注意特征,用于显著性检测。
由于注意机制具有很强的特征选择能力,非常适合显著性检测。现有的大多数方法在综合卷积特征的同时,对多层次特征不加区别地进行处理。一些方法采用了某些有效的策略,如门函数[42]和渐进式注意[45],但这些方法只按一定方向选择特征,而忽略了高层次特征和低层次特征之间的差异。与它们不同的是,对于高层特征,我们采用了上下文感知金字塔特征提取(CPFE)模块和通道关注模块来捕捉丰富的上下文信息。在CPFE模块中,我们在VGG网络的三个高级块的一侧采用多尺度Atrus卷积,然后基于通道的注意机制对对显著对象表现出高响应性的通道赋予较大的权重。对于低层特征,存在一些干扰显著图生成的背景区域。空间注意机制根据高层特征过滤背景细节,更多地关注前景区域,有助于生成有效的特征进行显著性预测。
本文提出了一种新的显著性检测方法,包括上下文感知金字塔特征提取模块和通道关注模块,用于获取上下文感知的多尺度多感受场高层特征,用于低层特征映射的空间注意力模块,用于提炼显著目标细节,以及有效的边缘保持损失,用于引导网络在边界定位中学习更详细的信息。总体架构如图2所示。
视觉上下文对于显著性检测非常重要。现有的CNN模型通过堆叠多个卷积和汇聚层来学习对象的特征。然而,显著的对象在比例、形状和位置上具有很大的变化。以前的方法通常直接使用自下而上的卷积和汇聚层,这可能不能有效地处理这些复杂的变化。受SIFT[23]特征提取的启发,我们尝试设计一种新的模块来提取尺度、形状和位置不变性的特征。尺度不变特征变换(SIFT)是计算机视觉中检测和描述图像局部特征的一种特征检测算法。该算法提出了融合尺度空间表示和金字塔多分辨率表示的高斯拉普拉斯表示法[23]。尺度空间表示由多个相同分辨率的不同高斯核函数处理,金字塔多分辨率表示由不同分辨率的下采样处理。类似于SIFT中的高斯函数,我们使用Atrus卷积[4]来获得尺度相同但接收范围不同的特征。类似于SIFT中的金字塔多分辨率表示,我们采用VGG-16[27]中的vv3-3、vv4-3和vv5-3来提取多尺度特征。
具体地,上下文感知金字塔特征提取模块如图3所示。我们将VGG-16中的Conv 3-3、Conv 4-3和Conv 5-3作为基本的高层特征。为了使最终提取的高层特征包含尺度不变性和形状不变性特征,我们采用不同扩张率的Atrus卷积,分别设置为3、5和7来捕捉多感受场上下文信息。然后,通过跨通道级联,将来自不同Arous卷积层的特征图与1×1降维特征进行拼接。然后利用上下文感知信息得到三种不同尺度的特征,将两个较小的特征向上采样为最大的一个。最后,我们将它们进行跨通道级联,作为上下文感知金字塔特征提取模块的输出。
我们使用上下文感知金字塔特征提取来获得多尺度、多感受域的高层特征。不同的特征有不同的语义值来生成显著性地图。但现有的大多数方法都是不加区分地集成多尺度特征,导致信息冗余。更重要的是,某些级别的信息不准确会导致性能下降甚至预测错误。对这些特征进行过滤,更多地提取有价值的特征具有重要意义。在这一小节中,我们将讨论PFA网络中的注意机制。根据不同层次特征的特点,对低层特征进行我们对高级特征采用通道式关注和空间关注度的选择,以选择有效的特征。此外,我们不将空间注意力用于高级特征,因为高级特征包含较高的抽象语义[16,45],因此不需要过滤空间信息。而对于低层特征,我们没有使用通道注意,因为低层特征的不同通道之间几乎没有语义差异。
CNN中的不同特征通道生成对不同语义的响应[16]。从图1可以看出,高层特征的显著性图只是一个粗略的结果,一些重要区域可能会被削弱。在上下文感知金字塔特征提取后,我们增加了通道注意力(CA)[16,3]模块,对多尺度、多感受域的高层特征进行加权。CA将更大的权重分配给对显著对象表现出高响应的信道。
我们展示了高级特征fh∈Rw×H×Cas fh=[fh 1,fh 2,.,fh C],其中fh I∈RW×His fHand C的第i个切片是总通道数。首先,我们对每个FH I应用平均池化以获得通道特征向量VH∈RC。之后,使用两个连续的全连接(FC)层来完全捕获通道依赖关系(参见图4)。如[16]所述,为了限制模型复杂度和帮助泛化,我们通过在非线性周围形成两个FC层的瓶颈来编码通道特征向量。然后,通过使用Sigmoid运算,对映射到[0,1]的编码通道特征向量进行归一化处理。
自然图像通常包含丰富的前景细节和复杂背景。从图1可以看出,来自低层特征的显著图包含了大量的细节,这些细节很容易带来不良的结果。在显著性检测中,我们希望得到显著目标和背景之间的详细边界,而不需要其他会分散人们注意力的纹理。因此,我们没有一视同仁地考虑所有的空间位置,而是采用空间注意将更多的注意力集中在前景区域上,这有助于生成有效的特征来进行显著性预测。
我们将低层特征表示为fl∈RW×H×C。空间位置集由R={(x,y)|x=1,.,W;y=1,.,H}表示,其中j=(x,y)是低层特征的空间坐标。类似于[26],为了增加接受场和获得全局信息而不增加参数,我们采用了两个卷积层,一个核为1×k,另一个核为k×1,用于高层特征来捕获空间关注点(见图4)。然后,利用Sigmoid运算对映射到[0,1]的编码空间特征图进行归一化处理。
在机器学习和数学优化中,损失函数表示分类问题中预测不准确所付出的代价。在显著目标检测中,我们通常使用最终显著图与地面真实值之间的交叉熵损失。损失函数定义为:
其中Y表示基本真实,P表示网络输出的显著图,αs表示正负样本的平衡参数,我们设置αs=0.528,它是根据训练集的基本真实计算出来的。然而,损失函数仅提供生成显著图的一般指导。我们使用一种更简单的策略来强调显著对象边界细节的生成。首先使用拉普拉斯算子[12]得到网络输出的地面真实边界和显著图,然后使用交叉熵损失来监督显著对象边界的生成。
拉普拉斯算子是n维欧氏空间中的二阶微分算子,定义为梯度的散度(∆f)。因为二阶导数可以用来检测边缘,所以我们使用拉普拉斯算子来得到显著的对象边界。二维拉普拉斯算符由公式8给出,其中x和y是xy平面的标准笛卡尔坐标。事实上,由于Laplacian使用图像的梯度,因此它在内部调用卷积运算来执行其计算。然后我们使用绝对运算,然后使用tanh激活公式9将该值映射到[0,1]。最后,我们使用交叉熵损失来监督显著对象边界公式10的生成。总损失函数是它们的加权和:
性能评估用于五个标准基准数据集:DUTS-TEST[30]、ECSSD[37]、HKUIS[19]、PASCAL-S[21]和DUT-OMRON[40]。DUTS[30]是一个大规模的数据集,包含10553幅用于训练的图像和5,019幅用于测试的图像。ECSSD[37]包含1000幅图像,在其基本事实分割中具有许多语义上有意义的复杂结构。HKU-IS[19]包含4447幅具有挑战性的图像,这些图像具有多个互不相连的突出对象,重叠图像边界或颜色对比度较低。PASCAL-S[21]包含850幅图像,不同的显著对象具有不同的显著性。DUT-OMRON[40]拥有5,168幅高质量图像。此数据集的图像具有一个或多个显著对象和相对复杂的背景。
本文提出了一种新的显著目标检测方法–金字塔特征注意力网络。考虑到不同层次特征的不同特点,对于高层特征,我们设计了包含多尺度不同Atrus卷积的上下文感知金字塔特征提取模块和基于通道的注意力模块来捕获语义高层特征;对于低层特征,我们使用空间注意力模块来抑制背景中的噪声,并将注意力集中在显著的目标上。此外,我们还提出了一种新的边缘保持损失来引导网络在边界定位中学习更详细的信息。总之,该方法具有较强的特征提取能力和恰当的注意机制,能够准确定位出正确的显著目标,使网络具有较强的鲁棒性和较强的显著性检测能力。在五个数据集上的实验结果表明,在不同的评价指标下,我们提出的方法比最新的方法具有更好的性能。