JL-DCF: Joint Learning and Densely-Cooperative Fusion Framework for RGB-D Salient Object Detection

一种基于联合学习和密集协作融合的RGB-D显著性检测方法

​​​​​​​2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

现有的模型使用RGB和深度信息作为单独的信息,并设计分离的网络对个自的特征进行提取,这类模型很容易受到有限的训练数据且过度依赖于精心设计的训练过程。相反地,作者提出了一种基于孪生网络(Siamese Network)的框架,并设计联合学习(JL)和密集协作融合(DCF)模块,JL模块提供强大的显著性特征学习,而后者则用于补充特征发现。用于解决RGB-D显著性目标检测任务。实验结果证明JL-DCF检测器具有更加鲁棒的性能,相对于第一名模型D3Net,在六个RGB-D显著目标检测数据集上取得了平均1.9%(S指标)的提升,从而验证了该模型可应用于现实场景中,并提供了对跨模态互补型任务更统一化的解决方案与理解。

JL-DCF: Joint Learning and Densely-Cooperative Fusion Framework for RGB-D Salient Object Detection_第1张图片

整个网络架构由两部分组成:(1)JL联合学习(2)DCF密集协作融合

(1)JL联合学习

输入是RGB图和其对应的转化为三通道的深度图,将三通道的RGB图和转换后的深度图在第4维度(batch)进行串联,从而形成一个batch,随后在孪生网络(共享的参数和权值),同时从RGB和深度信息学习,最后得到层次化特征,为了同时粗略对物体进行定位,对于最后一个层次CP6,在它之后添加1*1卷积层实现粗预测,对深度和RGB对应的输出使用下采样的真值图进行深监督

       使用CP模块(卷积层和ReLU非线性层)对测输出的特征压缩到同一通道k(减少内存和开销,便于后续逐元素操作),经过CP模块,输出仍然是batch

(2)DCF密集协作融合

       从CP模块输出的batch特征(包含深度信息和RGB信息),首先经过CM模块分离和使用“加和乘”融合特征,此时仍然有k个通道

然后CM1-CM6的融合特征被送到FA模块(接受比自身更深的输出作为输入),FA表示一个执行非 线性聚合和变换的特征聚合模块。其使用大小为1 × 1, 3 × 3, 5 × 5的滤波器以及最大池化执行多尺度卷积操作。

JL-DCF: Joint Learning and Densely-Cooperative Fusion Framework for RGB-D Salient Object Detection_第2张图片

       最后,输出最细化特征的FA模块表示为FA1,其输出被 送入(1 × 1, 1)的卷积层产生最终的激励信号,而后得到最终显著图。在训练期间,该显著图由调整大小后的真值图 (GT)进行监督。

你可能感兴趣的:(RGB-D,深度学习,神经网络,计算机视觉)