分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection

分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection

  • 引入
  • 方法
    • 网络概述
    • FIA
    • SR
    • HA
    • GCF
    • 损失函数
  • 实验相关
  • 总结

引入

显著目标检测的目的是检测感兴趣的区域吸引。显著目标检测作为一种高效的预处理技术,在图像理解、图像还原和目标跟踪等领域具有广泛的应用价值。
语义信息:是信息的表现形式之一,指能够消除事物不确定性的有一定意义的信息。
全卷积网络(FCN)通过叠加多个卷积层和池化层,逐步扩大网络的接受域,提取高级语义信息。如以往作品所指出,由于金字塔状的CNNs结构,低层特征通常具有更大的空间尺寸和更细粒度的细节,而高层特征往往获得更多的语义知识,丢弃一些无意义或不相关的细节信息。一般来说,高层特征有利于突出目标的粗定位,而包含空间结构细节的低层特征适合细化边界。然而,基于FNC的方法存在以下几个问题:(1)由于不同层次特征之间的差异,语义信息与外观信息的简单结合不够充分,缺乏考虑不同特征对显著性目标检测的不同贡献;(2)以往的研究大多忽略了全局上下文信息,但这一部分有利于推断多个显著区域之间的关系,产生更完整的显著性结果;
为了解决上述问题,我们提出了一种新的网络名为全局上下文感知渐进聚合网络(GCPANet),该网络由四个模块组成:特征交织聚合(Feature Interweaved Aggregation, FIA)模块、自我细化(Self - refinaved, SR)模块、Head Attention(HA)模块和全局上下文流(Global Context Flow, GCF)模块。
FIA:考虑到多级特征之间的特征差异,我们设计了FIA模块,将高级语义特征、低级细节特征和全局上下文特征充分融合,期望在抑制噪声的同时恢复更多的结构和细节信息。在第一个FIA模块之前,我们在骨架的顶层增加了一个HA模块,以加强突出物的空间和通道响应。
SR:在聚合之后,特性将被输入到SR模块中,通过利用特性中的内部特性来精炼特性映射。
GCF:考虑到上下文信息有利于捕获多个显著对象之间或显著对象不同部分之间的关系,设计了一个GCF模块,从全局的角度利用关系,有利于提高显著对象检测的完整性。
HA模块:利用空间注意和通道注意来减少信息冗余,增强顶层特征,自细化(SR)模块进一步细化和增强输入特征;
如下图所示,该方法可以处理一些具有挑战性的场景,如复杂的场景理解(高亮度天花板干扰),或多目标关系推理(乒乓球拍和球)。
分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第1张图片

方法

网络概述

分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第2张图片
如图所示,本文网络为对称的编解码器体系结构,其中编码器组件基于Res Net-50提取多级特征,解码器组件以监督的方式逐步集成多级综合特征生成显著性图。具体来说,1.首先使用HA模块对显著性目标进行高响应的空间区域和特征通道增强,使用SR模块通过特征细化和增强生成第一阶段高级特征。2.我们逐步将一个FIA模块和一个SR模块级联三次,以学习更多的鉴别特征,并生成更准确的显著性图。接下来详细介绍网络的4个组成部分:

FIA

FIA(Feature Interweaved Aggregation Module,特性交织聚合模块): 低层特征包含更多的细节信息,如纹理、边界、空间结构等,但同时也包含更多的背景噪声。而高级特征可以提供抽象的语义信息,有利于定位显著目标和抑制噪声。因此,这两个层次特征总是结合在一起,形成互补特征。除了这两个层次特征之外,全局上下文信息对于从全局角度推断不同显著性物体或部分之间的关系非常有用,有利于生成更加完整和准确的显著性图。此外,使用上下文特征可以缓解特征稀释的效果。因此,我们开发了FIA模块,将这三个层次的特征充分融合,从而产生具有全局感知的区别性和综合性的特征。具体而言,如图3所示,FIA模块接收三部分输入,即:上一层输出的高级特性,对应底层的低级特性,以及GCF模块生成的全局上下文特性。
分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第3张图片
以往的作品在对低层特征进行上行采样后,通常只是简单地使用高层特征,通过连接或加法操作,作者采用了一种更激进但更高效的操作,即,乘法。乘法运算可以增强显著目标的响应,同时抑制背景噪声,图中涉及的运算如下图,
分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第4张图片
此外,为了建立显著性对象不同部位之间的关系模型,缓解高水平特征的稀释过程,我们引入了各阶段的全局上下文特征fgt,我们使用全局上下文特征fgt来生成上下文掩码Wgt,然后,上下文掩码Wgt与压缩的底层特征相乘,公式如下:
分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第5张图片
最后将这三层特征进行拼接,再经过一个3×3的卷积层,得到最终的融合特征:在这里插入图片描述
上述卷积层除conv2、conv3、conv4外,均配备了批处理归一层和ReLU激活函数。FIA模块的输出被传递到SR模块。

SR

Self Refinement Module(自我优化模块):在FIA模块中,我们将不同层次特征之间的互补特征结合起来,得到特征的综合表达。该方法简单直观,可直接在FIA模块后应用softmax层获得显著性图,但仍存在一些缺陷。例如,预测的显著性目标存在一些空洞,这是由于不同层次的矛盾响应造成的。因此,在通过HA模块和FIA模块后,开发了一个SR模块,利用乘法和加法运算进一步细化和增强特征图(图4)。分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第6张图片
输入的图像主要经过了一下两步计算:
分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第7张图片

HA

Head Attention Module:由于编码器组件的顶层特征对于突出的目标检测来说通常是冗余的,因此我们设计了一个跟随顶层的HA模块,通过利用空间和信道上的注意机制来学习更有选择性和代表性的特征。Head Attendtion Module 中:

  1. 将输入图片压缩成256通道的特征图,然后和SR一样,经过卷积得到第一阶段特征图F1;
  2. 将输入特征F通过平均池化向下采样到一个信道上的特征向量f,f具有很强的一致性和不变性。然后利用连续两个全连通层fc1(·)、fc2(·)将特征向量f投影到输出向量y中,通过向量y加权得到最终输出的特征图Fout。这里fc1(·)、fc2(·)用的激活函数分别为:ReLU和Sigmod函数;
  3. 最终结果为F1经由y加权得到;

以上步骤可以归结为一下三步运算:
在这里插入图片描述
在这里插入图片描述

GCF

Global Context Flow Module:提出原因:对于背景杂乱、前景干扰、多个突出物等突出物检测具有挑战性的场景,由于突出物不同部位之间或多个突出物之间缺乏全局语义关系,简单地整合高水平低水平特征可能无法完全检测出突出区域。此外,由于自顶向下的途径是建立在自底向上的主干上的,高层特征在传递到低层的过程中会逐渐被稀释。为了解决这些问题,考虑了不同阶段的不同贡献,设计了GCF模块嵌入到每个阶段FIA模块中来捕获全局上下文信息,每个阶段的运算如下:

分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第8张图片

损失函数

在显著性检测中,通常使用二值交叉熵损失作为损失函数来度量生成的显著性映射与真值之间的关系,公式为:
分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第9张图片
其中H、W分别为图像的高度和宽度,Gij为像素(i,j)的真值标签, Sij为对应位置(i,j)处突出物的概率。为了便于优化所提议的网络,在三个解码阶段增加了辅助损耗。具体来说,在每个阶段应用一个3×3的卷积操作,将输出特征映射的通道压缩为1。然后通过双线性插值将这些地图上采样到与真值相同的大小,并使用sigmod函数将预测值归一化为[0,1]。全部损失由两部分组成,即,各子级对应输出的显性损耗和辅助损耗,为:在这里插入图片描述

实验相关

实验细节:我们采用Image Net上预训练的ResNet-50 作为我们的网络骨干。1.在训练阶段,我们通过随机水平翻转将每张图像的大小调整为320×320,然后随机裁剪一个尺寸为288×288的碎片进行训练;2.在推理阶段,将图像简单地调整为320×320,然后送入网络进行预测,不进行任何其他后处理(如CRF)。采用**小批量随机梯度下降(SGD)**优化整个网络,批量大小为32,动量为0.9,权重为5e-4。我们使用warm-up 和 linear decay策略,骨架网络用5e-3,其他部分用0.05训练我们的模型,30周期停止训练;用一张NVIDIA titanium - xp GPU卡加速,对320×320图像的推断大约需要0.02秒(超过50帧/秒)。
实验结果:实验中,不同方法的显著性映射由作者提供,或者通过在默认参数下运行他们发布的代码获得。

  • 表1给出了F-measure、S-measure、MAE评分的定量比较结果。很明显,所提出的方法在不同的度量条件下取得了最佳的性能,这证明了所提出模型的有效性。此外,如图5所示,在不同阈值下,我们方法的PR曲线和F-measure曲线(红色曲线)在大多数情况下都比之前的其他方法突出,这与表1所报告的测度相一致。
    分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第10张图片
    分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第11张图片
  • 为了进一步说明所提方法的优势,我们提供了一些不同方法的可视化例子。如图6所示,我们提出的方法可以处理各种具有挑战性的场景,包括细粒度结构、杂乱的背景、前景干扰、对象并发性和多个突出对象等。与以往的方法相比,该方法生成的显著性图更加完整、准确。注意,我们的方法对背景/前景干扰(第二/第三行)更有效,可以捕获多个对象之间的关系(第五行),这说明了特征交织聚合策略和引入全局上下文信息的威力。
    分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第12张图片
    Ablation Study:在这一部分,我们进行烧蚀研究,以验证在提出的模型中设计的每个关键部件的有效性。在ECSSD数据集上进行了消融实验,采用ResNet-50作为主干。如表3所示,所提议的模型包含所有组件(即其中,FIA、SR、HA和GCF)的显著性检测结果最好,这说明该模型的核心部件能够获得最佳的显著性检测结果。
    分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第13张图片
    GCF测试:此外,我们将GCF模块的有效性与另一种设置进行比较,在另一种设置中,全局上下文特性在所有阶段都是共享的。从表2可以看出,提议的GCF模块的性能优于共享模块。造成这一现象的潜在原因是,GCF模块的并行方案可以为不同阶段提供鲜明的特征,有利于学习突出对象的综合特征和鉴别特征。
    分析显著性目标检测--Global Context-Aware Progressive Aggregation Network for Salient Object Detection_第14张图片

总结

在本文中,我们提出了一个全局上下文感知的渐进聚合网络(GCPANet)来实现显著目标检测。考虑到不同级别特性的不同特性,我们设计了一个简单而有效的聚合模块来充分集成不同级别特征。引入不同阶段的全局上下文信息,获取多个显著对象或显著对象的多个区域之间的关系,缓解特征的稀释效应。在六个基准数据集上的实验结果表明,该网络在不同的评估指标下可以执行其他12种先进的方法。

你可能感兴趣的:(计算机视觉,机器学习,深度学习,图像识别)