论文阅读:《Global Context-Aware Progressive Aggregation Network for Salient Object Detection》 AAAI 2020

Global Context-Aware Progressive Aggregation Network for Salient Object Detection

论文地址:https://arxiv.org/abs/2003.00651
项目地址:https://github.com/chenquan-cq/PFPN

摘要

深卷积神经网络在显著目标检测中取得了很好的性能,其中如何学习有效的综合特征起着至关重要的作用。以往的研究大多采用多层次特征集成,而忽略了不同特征之间的差异。此外,高层次特征在自上而下传递时也存在一个稀释过程。为了解决这些问题,我们提出了一种新的网络GCPANet,通过一些渐进的上下文感知特征交织聚合(FIA)模块,有效地集成了低层外观特征、高层语义特征和全局上下文特征,并以有监督的方式生成显著图。此外,还利用头部注意(HA)模块,利用空间和通道注意来减少信息冗余,增强顶层特征,并利用自细化(SR)模块进一步细化和增强顶层特征输入特性。此外,设计了global context flow(GCF)全局上下文引流模块,生成不同阶段的全局上下文信息,旨在了解不同显著区域之间的关系,缓解高层次特征的稀释效应。在6个基准数据集上的实验结果表明,该方法在数量和质量上都优于最新的方法。
文章创新点:
1为了实现显著性检测,提出了一种全局上下文感知渐进聚合网络,包括特征交织聚合(FIA)模块、自细化(SR)模块、头部注意(HA)模块和全局上下文流(GCF)模块。
2 FIA模块将底层细节信息、高层语义信息和全局上下文信息交织在一起,由GCF模块生成全局上下文信息,捕捉不同显著区域之间的关系,提高生成显著图的完整性。
3 与6个公共基准数据集上的12种最新方法相比,所提出的网络GCPANet在定量和定性评估方面取得了最佳性能。

整体网络框架

论文阅读:《Global Context-Aware Progressive Aggregation Network for Salient Object Detection》 AAAI 2020_第1张图片
如上图所示,所提出的网络是对称的编解码器架构,其中,编码器组件基于ResNet-50来提取多级特征,解码器组件逐步集成多级综合特征,以有监督的方式生成显著图。具体来说,首先使用HA模块对高层特征图进行处理,然后使用SR模块通过特征细化和增强来生成第一阶段的高层次特征。然后,我们将FIA模块和SR模块分三次逐步级联,以学习更多的判别特征并生成更精确的显著图。在FIA模块中,底层细节信息、高层语义信息和全局上下文信息交织融合。连续到每个FIA模块的SR模块用于细化粗聚合特征。注意,全局上下文信息由所提出的GCF模块产生,该模块捕获不同显著区域之间的关系,并约束更完整的显著性预测。

各个模块

FIA模块

低层特征包含了更多的细节信息,如纹理、边界、空间结构等,但同时也包含了更多的背景噪声。相比之下,高层特征能够提供抽象的语义信息,有利于突出目标的定位和噪声的抑制
这两种特征结合起来产生互补的特征。除了这两个层次的特征外,全局上下文信息对于从全局的角度推断不同显著对象或部分之间的关系非常有用,有利于生成更加完整和准确的显著图。此外,使用上下文特征可以减轻特征稀释的影响。因此,我们开发了FIA模块来充分集成这三个层次的特征,从而产生具有全局感知的区分性和综合性特征。具体地,如图所示,FIA模块接收三部分输入,即来自前一层的输出的高层特征、来自相应底层的底层特征和由GCF模块生成的全局上下文特征。
论文阅读:《Global Context-Aware Progressive Aggregation Network for Salient Object Detection》 AAAI 2020_第2张图片
具体操作:fl进行11卷积,降维操作,fh先33,然后上采样。C表示相连接,fg先3*3,然后上采样

SR模块

在FIA模块中,结合不同层次特征之间的互补特征,得到综合特征表达式。作为一种简单直观的方法,可以在FIA模块后直接应用softmax层来获得显著性映射,但仍然存在一些缺陷。例如,在预测的显著目标中存在一些空洞,这是由不同层次的相互矛盾的响应引起的。因此,我们开发了一个SR模块,利用乘法和加法运算,在通过HA模块和FIA模块之后进一步细化和增强特征映射(见下图)。具体地说,我们利用3×3卷积层将输入特征压缩到特征向量f中,使其通道维数为256,同时保留有用信息。然后,将特征f送入两个卷积层以获得用于乘法和加法运算的掩模W和偏置b。主要过程可以描述为
在这里插入图片描述论文阅读:《Global Context-Aware Progressive Aggregation Network for Salient Object Detection》 AAAI 2020_第3张图片

HA模块

作用:利用空间和信道注意机制来学习更具选择性和代表性的特征。由于编码器组件的顶层特征对于显著目标检测通常是冗余的,我们设计了一个接在顶层后的 HA 模块,通过利用空间和通道注意机制来学习更具有选择性和代表性的特征。
具体地说,我们首先将卷积层应用于输入特征映射F,以获得具有256个通道的压缩特征表示。然后使用简单的卷积结构得到第一阶段特征F1,之后再通过全局平均池化,后接两个全连接层,分别使用ReLU和Sigmoid作为激活函数,从而得到权重。

GCF模块

作用:在每个阶段捕获嵌入FIA模块的全局上下文信息。首先使用平均池化获取全局上下文信息,然后为每个阶段的全局上下文特征映射的不同通道重新分配不同的权重。更具体地说,对于每个阶段,过程可以描述为在这里插入图片描述
ftop指顶层特征,fgap指顶层要素通过全局平均池生成的要素,包括全局上下文信息。然后,将输出的fgt输入FIA模块

实验过程

采用ResNet-50作为骨干网络,图片大小288*288,pytorch框架,GPU训练30周期

你可能感兴趣的:(显著性目标检测,#,论文阅读)