显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection

显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection_第1张图片

文章目录

  • 摘要
  • 网络概述
  • 网络模型分析
    • Global Guidance Module
    • Feature Aggregation Module
  • 与边缘检测共同训练
  • 实验结果
    • 烧蚀研究
    • 与卓越方法的对比
  • 总结

摘要

文章的主旨为扩大池在卷积神经网络中的作用来解决突出目标检测的问题;根据此立意,作者提出了一下方法:

  1. 在u形结构的基础上,首先在自底向上的路径上构建了一个全局引导模块(GGM),目的是在不同的特征层上提供潜在显著目标的位置信息;

  2. 进一步设计了一个特征聚合模块(FAM),使粗级语义信息与自顶向下路径的细级特征很好地融合

网络概述

以往模型存在的问题:

  • 在u形结构中,高级语义信息被逐步传输到较浅的层次,因此较深层次捕获的位置信息可能同时被逐渐稀释;
  • CNN的可接受区域大小与它的层深度并不成正比;
    作者主要扩大池化层在U-Net中的作用来解决以上问题,下图为
    显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection_第2张图片
    首先,此模块是建立在FPN的基础上包括一下两个模块(关于PFN: FPN)
  • GGM(蓝色部分为GGM模块)由金字塔池模块(PPM)的修改版本和一系列全局引导流(GGFs)组成;GGM是一个独立的结构,PPM放置在主干的顶部,以捕获全球指导信息;通过引入GGF, PPM收集到的高级语义信息可以被传递到所有金字塔级别的特征地图上,弥补了u形网络自上而下信号逐渐被稀释的缺陷 解决了问题1
  • 特征聚合模块 (FAM:图中‘A’表示区域):考虑到来自GGFs的粗级特张图与金字塔不同尺度的特征图的融合问题,提出了一个特征聚合模块 (FAM),它将融合后的特征图作为输入。首先将融合后的特征图转换为多个特征空间,以捕获不同尺度下的局部上下文信息,结合信息来更好地权衡融合输入特征图的组成;

网络模型分析

在上文中,我们已经分析过作者的网络整体模型,下面分析该网络的两个组成部分:GGM,FAM

Global Guidance Module

显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection_第3张图片
GGM模块由一个PPM以及一系列GGF组成

  • GGM中的PPM由四个子分支组成,用于捕获输入图像的上下文信息。第一个和最后一个子分支分别是标识映射层和全局平均池层。对于中间的两个子分支,我们采用自适应平均池化层1,以保证它们的输出特征图空间大小分别为3×3和5×5。
  • GGF:通过引入一系列global guiding flows(全局引导流),可以很容易地将高级语义信息传递到不同层次的特征图中;

为了更好地演示我们的GGM的有效性,我们展示了一些视觉比较。如下图所示:
显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection_第4张图片
从图中可以看出,对于一些复杂的场景,仅使用FPN主干很难找到显著目标。也有一些结果,其中只有部分突出对象被检测。然而,当我们的GGM被合并后,所得到的显著性映射的质量将大大提高;

Feature Aggregation Module

如何使来自GGM的粗级特征图与金字塔不同尺度的特征图无缝融合?

显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection_第5张图片
如上图所示,每个特征聚合模块包含四个子分支;
在前向传递中,首先将输入的特征图以不同的下采样率输入到平均池化层,将其转换到不同的尺度空间。然后将来自不同子分支的上采样特征图合并在一起,然后是一个3×3的卷积层,这种方法有一下两个优点:

  1. 有助于模型减少上采样的混叠效应,特别是当上采样率很大时。
  2. 此外,它允许每个空间位置以不同的尺度查看局部环境,进一步扩大整个网络的感受场。
    为了证明FAM的有效性,有以下对比图:
    显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection_第6张图片
    可以很容易地发现多次引入FAM可以让我们的网络更好地锐化突出物体的细节。观察图2第二行,这种现象尤为明显。上述讨论验证了我们的算法在不同尺度下更好地融合特征图方面的显著效果。

与边缘检测共同训练

在前边中描述的体系结构已经在多个流行的显著对象检测基准上超过了以前所有的最先进的单模型结果。尽管如此,通过观察模型产生的显著性地图,我们发现许多不准确(不完整或过度预测)的预测是由于不清楚的对象边界造成的。

在自顶向下路径中,在三个特征层的FAMs后添加三个残差块,用于信息转换。这些残块从细级到粗级的通道编号为{128,256,512}。每个残块后面都有一个16通道3×3卷积层用于特征压缩,以及一个通道1×1卷积层用于边缘预测。作者将这三个16信道的3×3卷积层连接起来,馈送到三个连续的48信道的3×3卷积层中,将捕获的边缘信息传输到显著的目标检测分支,进行细节增强。位置如下(图中R部分):显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection_第7张图片
从下图(图5)中可以看出,与边缘检测任务的联合训练大大改善了被检测出的显著性目标的细节:
显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection_第8张图片

实验结果

烧蚀研究

首先研究了GGM和FAMs的有效性。然后,对GGM和FAM的配置进行了更多的实验。最后,展示了联合训练和边缘检测对性能的影响:

GGM和FAMs的有效性:为了验证所提出的GGM和FAMs的有效性,在vgg16骨干上进行了基于FPN基线的消融实验。除了GGM和FAMs的不同组合外,所有其他配置都是相同的。表1显示了在两个具有挑战性的数据集上的性能:DUT-O和SOD:
显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection_第9张图片
在图6中显示了更多的定性结果:
显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection_第10张图片

联合训练和边缘检测对性能的影响:在表2中,为了进一步提高我们方法生成的显著性图的质量,我们尝试将边缘检测与显著性目标检测结合起来:显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection_第11张图片

与卓越方法的对比

定量结果如表3所示。我们把VGG-16和ResNet-50都作为主干网络,并在两者上显示结果:显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection_第12张图片
表4还显示了不同方法(在相同环境下测试)的平均速度(FPS)比较:
显著性目标检测之A Simple Pooling-Based Design for Real-Time Salient Object Detection_第13张图片

总结

在本文中,作者设计了两个简单的基于池化的模块:全局引导模块(GGM)和特征聚合模块(FAM)来探讨池化在显著目标检测中的潜力。通过将它们插入到FPN体系结构中,我们证明了我们提出的PoolNet可以在六种广泛使用的显著目标检测基准上超越所有以前的先进方法。此外,以端到端学习的方式将我们的网络与标准边缘检测任务联合训练,可以极大地增强被检测出的突出目标的细节。作者的模块独立于网络架构,并且可以灵活地应用于基于金字塔的模型。这些方向也提供了很有前途的方法来提高显著性地图的质量。

你可能感兴趣的:(深度学习,计算机视觉)