A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译

A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译

@(论文笔记)

摘要

A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译_第1张图片
我们通过研究如何扩大CNN中池化的作用来解决显著性目标检测问题。基于U型结构,我们首先在从底到上路径上组建了全局导向模块GGM,其目的是为了给不同特征水平的层提供潜在的目标位置信息。我们接着设计了一个特征整合模型FAM来很好地处理粗粒水平语义信息,与从上至下的路径中精细水平特征相融合。通过在自上而下的路径中融合操作之后添加FAM模型,从来自GGM的粗粒特征可以被无缝地与各个尺寸的特征合并。这两个基于池化的模块允许高水平语义特征被大幅地精炼,生成细节信息更加丰富的显著性图。实验结果表明我们提出的方法可以更加准确地定位具有锐化细节的显著目标,因此实质性的提升性能与此前最好结果相比。我们的方法也速度也很快,可以在处理300*400T图像时处理速度能够超过30FPS。代码可在 http://mmcheng.net/poolnet/ 找到。

网络结构

A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译_第2张图片
图一
A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译_第3张图片
我们建立的结构是基于特征金字塔网络,它是一种设计了从底到上和从顶到下方法的一种典型的u性结构正如图一左上角。由于从分类网络中结合多水平特征的强大能力,这个类型的结构已经被广泛用于许多视觉任务,包括显著性目标检测。正如图一所示,我们引入了一个全局导向模块,它被建立在从底到上路径的顶部。通过将从GGM提取的高水平特征整合进每个特征水平的特征图,我们的目的是显式地注意到不同特征水平层显著目标在哪个位置。来自GGM的全局指导信息被整个到不同水平的特征之后,我们接着引入FAM来确保不同水平特征图可以被无缝地整合。

A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译_第4张图片
A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译_第5张图片
FPNs提供了一个结合分类骨架多水平特征的典型结构。然而,由于从上到下的路径是建立在从底到上的骨架上的,所以这种U型结构存在的问题之一就是高水平的特征将会被逐渐稀释,当它们被注入低水平特征。在文献[49,47]中所展示的那样,CNN中经验上的感受野远小于理论上的感受野尤其是较深的层,所以这整个网络的感受野并不足以扑捉输入图像的全局信息。这个问题的直接效果就是显著性目标只有部分被检测到,如图二 c。关于在从顶到底路径对于精细特征图的高水平语言信息的缺失,我们引入了全局指导模块,它包括了特征金字塔的修改版PPM以及一系列全局指导流GGFs来显式地让每个水平的特征图意识到显著性目标的位置。
更加具体的,我们的GGM中PPM由四个捕捉输入图像的上下文信息的子分支组成。第一和最后一个分支分别是恒等映射和全局平均池化层。对于中间两层,我们采用了自适应平均池化层来确保它们的输出特征图分别具有空间尺寸 3 ∗ 35 ∗ 5 3*3 5*5 3355。给出了PPM, 现在我们需要去做的是如何保证由PPM产生的指导信息能够合理地与从上到下的不同水平的特征图相融合。

A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译_第6张图片
与将PPM简单地视为U性结构的一部分的此前工作相当不同的是,我们的GGM是独立于U型结构。通过引入一些列的全局指导流(恒等映射),高水平的语义信息可以被容易地发送到不同水平的特征图中。通过这个方式,我们显式地在从上到下路径上每个部分增加了全局指导信息,以此来确保在构建FPNs时位置信息不会被稀释。

A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译_第7张图片
图二

A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译_第8张图片
A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译_第9张图片
我们的GGM模块的使用允许全局指导信息可以被发送至不同特征水平特征图。然而,一个新的问题是如何让来自GGM的粗糙特征图无缝地与不同金字塔尺寸特征图合并。FPN的VGG版本的特征图具有 2 , 4 , 8 , 16 {2,4,8,16} 2,4,8,16的下采样率相对于输入图像尺寸分别的。在FPN的原始上到下路径中,具有较粗超水平特征图被以2为因子上采样。因此,在合并操作之后添加一个卷积核为33的卷积层可以有效地减少上采样的失真。然而,我们的GGF需要更加大的上采样率比如8。它是必要的来高效地桥接在GGF和不同尺度特征的大缝隙。
最后,我们提出了一系列特征整合模块,这些模块包含了四个子分支如图三。在前线传递中,输入特征首先通过喂入不同下采样率平均池化层转化至不同尺寸空间。来自不同子分支的被上采样的特征图被合并,后接一个3
3的卷积层。
一般来说,FAM有两个优势,首先,它有助于我们的模型减少上采样带来的失真作用,尤其是上采样率比较大的时候。另外,允许每个空间位置查看在不同尺寸空间的局部上下文,进而放大这个放大整个网络的感受野。据我所知,这是第一个工作,揭示了FAM是有利于减少上采样的失真作用。

A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译_第10张图片
图三

在这里插入图片描述
A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译_第11张图片
考虑到前面的论述,我们尝试采用了与边缘检测任务的联合训练,使用了与[1,29]相同的数据集,正如[26]。在训练期间,显著性目标检测数据集和边缘检测数据集的图像交替输入。结果如图四,与边缘检测的联合训练极大地提高了被检测显著性目标的细节。
A Simple Pooling-Based Design for Real-Time Salient Object Detection论文翻译_第12张图片
图四

我的总结
好的论文总是把事情讲的很清楚。这篇论文,首先采用了应用广泛的U性网络结构,接着发现U型网络检测目标不完整的问题,作出了猜想认为是u性网络short connect的低水平特征稀释了深层特征,提出了解决方案GGM模型,既然具有较多语义的高水平特征被稀释,就直接地从botton-top路径的顶层特征分别合并(恒等映射)到top-down路径的特征。接着作者又猜想认为,粗糙高水平特征不能直接地与不同尺度特征图(较精细特征图)无缝合并,提出了采用FAM模型来进行整合。同时,FAM可以减少上采用后的失真效果。
行文显式地表述了出现出现什么问题、现象,提出了解决方案,并进行证明。

你可能感兴趣的:(论文笔记)