RGB-D Salient Object Detection:综述论文笔记

RGB-D Salient Object Detection:综述论文笔记

显著性目标检测致力于给定区域内最重要的视觉性目标。SOD在真实世界的应用范围内起着关键性的作用,例如立体匹配、图像理解、显著性检测、行为感知、视频探测和分割、语义分割、视频图像分割、目标追踪、行人检测、伪装目标检测等等。尽管在过去的几十年里SOD领域已经有了很大的进展,在各种挑战因素下还有着提升的空间,例如在场景中有着复杂的背景或者不同的灯光条件。一个解决这些困难的办法是使用深度图,提供RGB图像的补充信息并且由于深度传感器的巨大实用性使得特征已经变得更容易捕捉。
RGB-D Salient Object Detection:综述论文笔记_第1张图片

最近,基于RGB-D的SOD得到了广泛的关注并且各种各样的模型得到了发展。早期基于RGB-D的SOD模型倾向于提取手工特征然后混合RGB图像和深度图。第一个致力于RGB-D的SOD模型使用了高斯混合模型模拟出诱导性深度显著特征的分布规律。Ciptadi提取出3D分布和形状特征从深度测量值中。此外几个方法在不同的区域使用不同的深度测量出了深度的差异性。尽管使用传统模型提取手工特征有一定的效益但是仍然受制于低水平特征的泛化能力和在复杂场景中对高水平推论的需求。为了解决这些限制,基于RGB-D的SOD深度学习模型得到了发展,展示了显著的提高表现。
在过去的几十年里,许多基于手工特征的RGB-D模型已经得到了发展,但是手工特征的表达能力有限,从而导致传统的模型在显著性目标检测任务的表现不是很好,为了解决这个问题,一些研究已经转向深度神经网络在RGB-D数据上的应用。这些模型可以学习更高层次的特征,从而探索复杂的RGB图像和深度信息,来提高SOD的性能。

Fusion-wise Models:对于基于RGB-D的SOD模型,最重要的是高效融合RGB图和深度图,现存的融合策略一共包含三种:1早期融合2多尺度融合3晚期融合
早期融合:有两种方法(1)RGB图像和深度图像综合为一个四通道的输入。(2)分别进入不同的网络,然后将低水平的输出值再融合
晚期融合也分类为两种:(1)两个网络分别学习出高级特征的数据,然后连接1起来形成最终的显著性图。(2)两个并行的网络分别生成显著性图,然后将生成的显著性图融合成最终的显著性图
多尺度融合:为了高效的利用RGB图深度图,一些方法提出了多尺度融合策略。第一个方法是学习交叉特征,然后将他们融合为一个特征学习网络。如Chen等人提出的MMCI网络就是将交叉多层信息引入多层网络中,获得额外的梯度从而弥补低级特征和高级特征的不足。第二类是融合不同的深度图和RGB图在不同的网络层中,然后将他们输入一个解码网络,跳过链接获得最终的显著性检测图。如ICNet、DPANet、BiANet、JL-DCF、BBS-Net。
RGB-D Salient Object Detection:综述论文笔记_第2张图片

Single-stream Models:这些模型通常融合RGB图像和深度信息到输入通道或者特征学习部分。MDSF就是利用多尺度有识别力的显著图融合骨架作为SOD模型,计算了三层的四种特征,然后融合得到最终的显著性图。
Multi-stream Models:模型是由处理RGB图像和深度线索的多个独立分支组成,通常会产生不同的高级特征或显著性图,然后在中间阶段或结束时将它们合并。
Attention-aware Models:现存的基于RGB-D的SOD模型通常对待所有提取出来的特征进行平均处理,而忽略了不同的区域有不同的贡献对于最终的预测图不同。这些方法很容易被凌乱的背景所影响。此外,一些方法要么认为RGB图像和深度图像具有相同的状态,要么就是过度依赖深度信息。这使他们不能考虑不同域(RGB图像或深度线索)的重要性。为了克服这一点,有几种方法引入注意机制来衡量不同地区或领域的重要性。

挑战与发展方向:
1目前大部分方法是直接将深度图和RGB图片融合而不考虑低质量深度图对结果的影响。可以考虑对深度图进行加权从而降低低质量深度图对检测结果的影响。
2由于采集设备的问题导致有些深度图不够完善,可以尝试一个新的方向,即不完善的深度图情况下SOD任务的算法。此外,深度估计为恢复高质量深度提供了有效的解决方案,克服了低质量深度图的影响。多种深度估计方法已经被开发出来,这些方法可以被引入到基于RGB-D的SOD任务中,以提高性能
3、加入对抗神经网络来提高检测的效率
4、开发注意力机制在SOD任务中的作用
5、将无监督或弱监督模型引入SOD任务中
6、图像集还不够完善,需要收集更多的图像,例如道路标志的任务。
7、模型的压缩与移植,从算法到真实场景的应用。
8、扩展到RGB-T,利用红外图像与RGB图像的融合从而获得更高效的性能。
目前表现比较好的网络模型有:
JL-DCF[8]、UC-Net[9]、S2MA[6]、D3Net[3]、SSF[4]、A2dele[5]、ICNet[7]
RGB-D Salient Object Detection:综述论文笔记_第3张图片
论文:
[3] Deng-Ping Fan, Zheng Lin, Zhao Zhang, Menglong Zhu, and Ming-Ming Cheng, “Rethinking RGB-D salient object detection: Models, data sets, and large-scale benchmarks,” IEEE Transactions on Neural Networks and Learning Systems, 2020.
[4] Miao Zhang, Weisong Ren, Yongri Piao, Zhengkun Rong, and Huchuan Lu, “Select, supplement and focus for RGB-D saliency detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[5] Yongri Piao, Zhengkun Rong, Miao Zhang, Weisong Ren, and Huchuan Lu, “A2dele: Adaptive and attentive depth distiller for efficient RGB-D salient object detection,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[6] Nian Liu, Ni Zhang, and Junwei Han, “Learning selective self-mutual attention for RGB-D saliency detection,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[7] Gongyang Li, Zhi Liu, and Haibin Ling, “Icnet: Information conversion network for RGB-D based salient object detection,” IEEE Transactions on Image Processing, vol. 29, pp. 4873–4884, 2020.
[8] Keren Fu, Deng-Ping Fan, Ge-Peng Ji, and Qijun Zhao, “Jl-dcf: Joint learning and densely-cooperative fusion framework for RGB-D salient object detection,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
[9] Jing Zhang, Deng-Ping Fan, Yuchao Dai, Saeed Anwar, Fatemeh Sadat Saleh, Tong Zhang, and Nick Barnes, “Uc-net: uncertainty inspired rgb-d saliency detection via conditional variational autoencoders,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2020.
项目下载链接:

你可能感兴趣的:(RGB-D Salient Object Detection:综述论文笔记)