「论文笔记」Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection

这是一篇由南开大学程明明实验室发表的一篇2019CVPR论文

其主要思路为通过真实图像增强深度图像,再将增强后的图像与多尺度的RGB特征图像融合,最后再由流式金字塔结构(Fluid Pyramid Integration)处理输出。


  • 摘要

问题引入:现在大量的深度摄像头可以提供许多有价值的深度信息用于整个SOD的检测,但是由于深度图像和普通的RBG在内部还是差异,一般都是用的ImageNet里面的主干网络从深度图像提取特征,再来使用RGB图像细化他们,这种直接融合的方法往往不太完美。

提出一种全新的流式框架,使用对比度先验去增强深度图像使之与RGB图像特征融合。其次将提出的CPFPnet应用在5个数据集并与9个现在最好的方法进行对比。

  • 介绍

问题一引入:如今很多的基于CNN网络模型对于RGB图像的处理很多,但是他们都没有很好的解决目标同背景有着相同的特征导致错误的结果

However, existing CNNs-based SOD method mainly deal with RGB images, which may produce unsatisfying results when objects in the images share similar appearance with the background stuff.

接着介绍深度图的重要性,通过我们平时的手机就可以获得。

问题二引入:尽管在这些年的发展中,有很多的数据集和方法已经发表,但是怎么更好的利用深度信息图尤其是在深度学习的领域下,仍有很大的提升空间

Although several RGBD based SOD benchmarks  and methods have been proposed in the last few years, how to effectively utilize depth information, especially in the context of deep neural networks, remains largely unexplored.

问题三引入:现有的RGB-D算法无非是通过将RGB图像与深度图做一个简单的级联。作者总结了主要有三种,分别是融合特征步骤放在模型较前期的早期融合( early stage )、晚期融合、中期融合。在基于这三种方法的RGB-D算法为什么表现得让人不满意,作者总结出两个方面的原因。第一个是没有高质量的深度估计图,第二个是多尺度模态特征融合的问题,能设计出一个高效融合的结构十分困难。

三点贡献

  • 设计一个loss使用了对比先验(传统方法)用来增强深度图像。(与问题三原因之一的低质量深度图呼应)

We design a contrast loss to utilize the contrast prior, which has been widely used in non-deep learning based method.

  • 提出一个流式的金字塔模型来更好地融合多尺度深度与RGB特征。

We propose a fluid pyramid integration strategy to make better use of multi-scale cross-modal features, whose effectiveness has been experimentally verified.

  • 没有花里胡哨的操作,测试超过5个数据集和9个现在最先进的算法,并以较大优势领先。

Without bells and whistles, e.g., HHA [24], superpixels [54] or CRF [33], our model outperforms 9 state-of-the-art alternatives with a large margin, over 5 widely used benchmark datasets.

  • 结构

「论文笔记」Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection_第1张图片

整个模型分为俩部分,一个是流式金字塔融合模块(FPI)和特征加强模块(FEM)。其中后者还包括特征加强和对比增强两个小模块,主干网络为VGG-16,当输入的原图经过VGG的2个卷积层和池化之后,输入特征加强模块输出加强后的特征图,重复之前的操作然后得到5个尺度不同的特征图,再经过不同的上采样倍率依次融合,比如第二行的第一个特征是由之前的5个特征图按照1、4、8、16、32倍率上采样然后融合而成。

而在FEM中,深度图经过4层卷积层(其中还包括Relu层等)经过Sigmoid函数输出为(0,1)的特征图,最后loss输出增强后的深度图,值得注意的是:右边的第二个开始的loss说明了整个处理过程。

  • lf、lb分别代表着提升后特征图像前景和后景的loss
  • F(i,j)、B(i,j)为真值图对应的前景像素点和后景像素点
  • p (i,j)为提升前对应的像素点
  • pˆ f 、 pˆ b为提升后像素点的均值

作者算出后面的平法差大概最大值在0.25,为了使后面的结果依然保持在0-1之间,所以乘了一个4

  • 实验

「论文笔记」Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection_第2张图片

「论文笔记」Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection_第3张图片

 

 

你可能感兴趣的:(阅读论文笔记)