「论文阅读笔记」Adaptive Fusion for RGB-D Salient Object Detection

这是来自于浙江大学的一篇RGB-D的目标检测论文。

标题是自适应融合的目标检测,其主要思路是在获取从RGB与深度图的信息后,将这两个的信息根据输入图像不同的权重转换成一个特征图(switch map),一个类似于权重机制的特征图。最后融合三路信息输出图像。


问题提出

「论文阅读笔记」Adaptive Fusion for RGB-D Salient Object Detection_第1张图片

作者总结了在RGB-D领域的输入图像的四种场景(例图从第一行往下看):

  1. 目标在RGB深度两种格式下都能分辨很清楚。
  2. 相同深度不同背景。
  3. 相同背景特征不同深度。
  4. 目标在两种格式下都不能轻易的分辨的很清楚。

    对于前面3种场景,在当前最好的算法或者模型中,一些基于单模式的最好算法都可以针对这三种场景得到不错的显著图,但是不能够很好的将这些模型整合在一起,做到取长补短。也就说这个算法可以在第二个场景比较优异,但是其他场景下就一般。所以在这个思考的基础上,能不能设计出一种模型或者一种机制,能够自适应的调整背景颜色特征与深度信息的权重,使得一个相同的融合策略会根据权重的不同,输出的效果图会更好。

 

两点主要贡献

  • 设计了一个双流的结构分别提取从RGB和深度特征图,在保持特征提取的高效性时也让结构尽可能的简单。
  • 提出了一个使用了转换特征图(switch map)能够自适应的预测显著性映射的显著融合模块。

 

结构

「论文阅读笔记」Adaptive Fusion for RGB-D Salient Object Detection_第2张图片

整个结构分为两部分,其中右边是特征提取模块,左边的绿色方框是融合模块,特征提取采用的是简单的VGG和层级互传,在这里就赘述了,我们把目光聚焦在它是怎么融合的。

「论文阅读笔记」Adaptive Fusion for RGB-D Salient Object Detection_第3张图片

首先,从RGB提取的特征Frgb(橙色箭头)与深度提取的特征Fd经过加和卷积后输出得到Fsw,再将得到的Fsw使用1x1的卷积操作后,Sigmoid函数输出数值SW(),其中Wsw与bsw分别是卷积操作的权重和偏差。最后将他们用权重互补的方式加和在一起得到最后的特征Sfused。

如何引导SW呢,通过文中所提到的伪真值Ysw。

「论文阅读笔记」Adaptive Fusion for RGB-D Salient Object Detection_第4张图片

 如果RGB显著性预测Srgb和地面真值Y同时显著或不显著,则Y sw为1,否则为0。这意味着如果Srgb正确地识别出突出的对象,那么我们选择rgb流中的预测作为最终结果;否则,选择深度流预测。

如果Srgb与真值Y同时突出如场景二,那么Ysw为1,表示Srgb能正确识别出物体,那么就会选择rgb流中的为预测作为最终结果。否则Ysw为0,那么将会更多的采用深度流进行预测。

实验结果

「论文阅读笔记」Adaptive Fusion for RGB-D Salient Object Detection_第5张图片

「论文阅读笔记」Adaptive Fusion for RGB-D Salient Object Detection_第6张图片

 

你可能感兴趣的:(阅读论文笔记)