[2021]Rethinking RGB-D Salient Object Detection : Models, Data Sets, and Large-Scale Benchmarks

Rethinking RGB-D Salient Object Detection : Models,

DataSets,and Large-Scale Benchmarks

IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, VOL. 32, NO. 5, MAY 2021

动机

1.在现实世界人类活动场景中,使用RGB-D对SOD建模的工作较少。

2.作者认为,并非深度图中的所有信息都能为 SOD提供信息,低质量的深度图通常会引入显着的噪声。

3.高质量的深度图有利于基于 RGB-D 的 SOD 任务。


D^3Net

[2021]Rethinking RGB-D Salient Object Detection : Models, Data Sets, and Large-Scale Benchmarks_第1张图片

在训练阶段(左),对输入的RGB图像和深度图像进行三个并行子网处理,分别为RgbNet、RgbdNet和DepthNet。这三个子网基于相同的特征金字塔网络(FPNs)的修改结构(见章节IV-A)。我们引入了这些子网来获得三种显著性映射(即Srgb、Srgbd和Sdepth),它们考虑了输入的粗细节和细细节。在测试阶段(右),本文首次使用了一种新的DDU(见章节IV-B)来显式地丢弃(即Srgbd)或保留(即Srgbd)由深度图引入的显著性图。在训练/测试阶段,这些组件形成一个嵌套结构,并经过精心设计(如DDU中的门连接),自动从RGB图像和深度图像中联合学习显著对象。

FLM(三流特征学习模块)

跨模态特征学习

跨模态特征学习的好处?

相互提供补充信息,学到不同模态之间的语义对应关系

DDU(深度调试单元)

在学习互补特征时期,明确过滤低质量深度图

门连接的目标是将深度图分类为合理的和低质量的,从而过滤低质量深度图

更具体地说,在测试阶段,RGB和深度图首先调整大小以一个固定大小(例如,一样的训练阶段224×224)减少计算复杂度。如图5所示(右),实现DDU门连接。表示输入图像和三个预测图∈{Srgb、Srgbd Sdepth},然后,DDU的目标是决定哪些预测图P∈[0, 1] W×H是最优的

DDU 在测试阶段而不是在训练阶段被考虑。 特别是,利用比较单元 Fcu 来评估分别从 DepthNet 和 RgbdNet 生成的 Sdepth 和 Srgbd 之间的相似性

我们利用平均绝对误差 (MAE) 度量来评估两个图之间的距离。

基本动机是,如果高质量深度包含清晰的对象,DepthNet 将很容易在 Sdepth 中检测到这些对象, Idepth中深度图的质量越高,Srgbd和Sdepth之间的相似度就越高。换句话说,来自 RgbdNet 的预测图 Srgbd 已经考虑了来自 Idepth 的特征。如果深度图的质量很低,那么来自 RgbdNet 的预测图将与来自 DepthNet 的生成图大不相同。我们测试了(2)中固定阈值 t 的一组值,例如 0.01、0.02、0.05、0.10、0.15 和 0.20,但发现 t = 0.15 取得了最佳性能。

你可能感兴趣的:(RGB-D,目标检测,深度学习,计算机视觉)