A Simple Pooling-Based Design for Real-Time Salient Object Detection------论文理解

论文链接: https://arxiv.org/abs/1904.09569

1. 摘要

本文将通过扩展卷积神经网络中的池化部分来解决显著目标检测问题。

在特征金字塔的基础上,在bottom-up途径上加入GGM模块(global guidance module),旨在为不同特征层提供潜在显著对象的位置信息。在top-down途径加入FAM模块(feature aggregation module),将粗糙级的特征和细致级的特征进行更好的融合。这两个基于池化的模块允许逐步重新定义高级语义特征,从而产生细节丰富的显著性特征图。实验结果表明,我们提出的方法能够更准确地定位具有锐化细节的突出物体,从而大大提高了与以往技术水平相比的性能。

2. 概述

基于U型结构的网络(如特征金字塔)能够通过在分类网络上构建自上而下的路径来构建丰富的特征图,因此受到最多的关注。
(也就是说U型框架得到的语义信息更多。)但仍然有很大的提升空间。

首先,高级语义信息逐渐传输到较浅层,因此较深层捕获的位置信息可以同时逐渐稀释;
(U型网络中bottom-up阶段产生高级语义信息,再通过top-down阶段上采样,并与bottom-up阶段横向连接,虽然会将粗糙信息和细致信息连接起来,但同样会导致高级语义信息中的位置信息逐渐被稀释。)

其次,CNN的感受野尺寸与其层深度不成比例。
(CNN的经验感受野比理论上的要小得多,尤其是对于更深层次的网络,因此整个网络的感受野不够大,无法捕获输入图像的全局信息。)

在本文中我们通过在U型框架中扩充池化的影响力的作用来解决上述问题。在FPN的基础上加入了两个模块:GGM模块和FAM模块

A Simple Pooling-Based Design for Real-Time Salient Object Detection------论文理解_第1张图片

GGM模块由金字塔池化(PPM)和一系列的GGFs组成。

PPM放在骨干网络的最高层,目的是得到全局引导信息。

通过引入GGF,PPM收集的高级语义信息可以传递到所有金字塔等级的特征图,从而弥补U型网络的缺点,即自上而下的信号逐渐被稀释。

考虑到GGF的粗级特征图与金字塔不同尺度的特征图的融合问题,我们又提出了一个特征聚合模块FAM,将融合后的特征图作为输入。

FAM模块首先将融合的特征映射转换为多个特征空间,以捕获不同尺度的局部上下文信息,然后组合信息以更好地权衡融合输入特征映射的组成。

此外,我们还为池化网络增加了边缘检测分支,通过联合训练我们的模型和边缘检测,进一步锐化显著对象的细节。

3. 网络结构详细讲解

多篇文献中曾指出,高级语义特征有助于发现显著对象的特定位置。低级和中级特征对于提高从粗糙层到细致层的深层特征提取也是必不可少的。

我们提出了两个互补的模块,能够准确地捕捉显著物体的确切位置,同时锐化他们的细节

网络总体流程:

首先引入GGM模块,该模块建立在金字塔bottom-up路径之上;
然后将GGM模块提取到的高级特征与 top-down路径的每一级进行融合;
在将来自GGM的引导信息与不同层次的特征融合后,我们进一步引入了特征聚合模块(FAM),以确保不同尺度的特征映射能够被无缝融合。

3.1 GGM模块

GGM模块包括PPM(金字塔池化)和GGFs(全局引导流)。

PPM模块包含四个分支,第一个是恒等映射层,最后一个是全局平均池化层,中间两个是自适应平均池化层,为了保证输出的特征图是3x3和5x5。

通过引入多个GGF全局引导流,将金字塔池化后的特征引入到各个级别特征图中,这样我们就可以增加全局引导信息在top-down过程中所占的分量,从而保证位置信息不会在不断上采样过程中丢失。

为了验证GGM模块的有效性,图2展示了有无该模块的对比图。当我们的GGM被合并时,产生的显著性图的质量会大大提高。

A Simple Pooling-Based Design for Real-Time Salient Object Detection------论文理解_第2张图片

 3.2 FAM模块

该模块目的是为了弥合GGM模块与金字塔中top-down路径特征图之间尺寸相差大的问题。

A Simple Pooling-Based Design for Real-Time Salient Object Detection------论文理解_第3张图片

前向过程中,仍然使用了金字塔池化的思想,对输入进行四个分支的平均池化,再通过3x3卷积进行上采样,最后再将四个分支拼接。拼接完加3x3卷积,目的是降低上采样的重叠效应。

总的来说,FAM模块有两个优点:
一,降低重叠效应,尤其是当上采样倍数较大时;
二,它允许每个空间位置在不同尺度空间查看局部环境,进一步扩大整个网络的接收领域。

图4对比了在引入FAM模块前后的差别,引入FAM后可以更好的捕捉到显著性物体。
同时,图2显示多次引入FAM模块会比只引入一次效果好。

A Simple Pooling-Based Design for Real-Time Salient Object Detection------论文理解_第4张图片

3.3 与边缘检测联合训练

虽然上述两个模块的引入已经使我们的网络超过了很多现有的显著性检测成果,但是,通过观察我们模型输出的特征图,一些不清楚的物体边界会导致预测的结果不够精确。

因此,我们在上述模块的前提下加入了三个边缘检测分支,位于FAM模块之后,用来信息转换。

每个分支都使用residual block,以及3x3-16的卷积,即每个分支都输出16个通道。最后将三个分支的16通道拼接得到48通道,与最后输出再拼接。目的在于,将捕捉到的边缘信息传输到突出目标检测分支以进行细节增强。

通过观察图5中e-f列的特征图,明显能观察到加入了边缘检测联合训练后的效果显著增强。

A Simple Pooling-Based Design for Real-Time Salient Object Detection------论文理解_第5张图片

4. 实验结果

A Simple Pooling-Based Design for Real-Time Salient Object Detection------论文理解_第6张图片

A Simple Pooling-Based Design for Real-Time Salient Object Detection------论文理解_第7张图片 

你可能感兴趣的:(深度学习,计算机视觉)