Dynamic Selective Network for RGB-D Salient Object Detection

Dynamic Selective Network for RGB-D Salient Object Detection

用于 RGB-D 显着目标检测的动态选择网络

IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 30, 2021


一 Motivation

通过各种融合策略来整合RGB图像和深度图。忽略了两种模式之间的固有差异,这导致在处理一些具有挑战性的场景时性能下降


二 Solution

动态选择网络 (DSNet),通过充分利用两种模态之间的互补性来执行rgb-d图像中的显着目标检测 (SOD)。

1. 部署一个跨模式全局上下文模块 (CGCM) 来获取高级语义信息,该信息可用于粗略定位显着对象。

2. 设计了一个动态选择模块 (DSM) 来动态挖掘RGB图像和深度图之间的跨模态互补信息,并通过分别执行门控和基于池化的选择来进一步优化多级和多尺度信息。

3. 进行边界细化以获得具有清晰边界细节的高质量显着性图。


三 网络框架

3.1 动态选择网络DSNet整体架构

Dynamic Selective Network for RGB-D Salient Object Detection_第1张图片

典型的编码器-解码器架构

编码器:骨干网络采用ResNet50,5个卷积块,分别下采样了2,4,8,16,16倍,转换通道数从64,256,512,1024,2048到64,128,256,512,512

解码器:动态选择模块DSM(跨模态注意模块CAM,双向门控池化模块BGPM),跨模态全局上下文模块CGCM,

具体过程:将深度图转换为和RGB一样的三通道,作为模型的输入,从ResNet50骨干网络提取每一级的纹理几何特征,然后将每一层的提取的两个特征送到CAM模块(跨模态注意模块,它的作用是 动态整合不同模态互补信息.....

3.2 跨模式全局上下文模块(CGCM)

Dynamic Selective Network for RGB-D Salient Object Detection_第2张图片 CGCM模块

 因为高级特征包含丰富的语义信息,可以有效表征全局信息,为了充分整合不同模态之间的高级语义信息,将RGB流和深度流提取的第5层的两个特征送到CGCM模块,实现粗略定位显著对象。具体是两个不同模态的特征将channel转换为1,其中kernel size的大小为1,stride为1 ,然后使用Sigmoid激活函数与对方输入矩阵相乘,叫做“模态间注意机制”,然后采用Conv-ReLU-Conv增强两个特征,再激活再与对方原始输入逐元素相乘,叫做“模态内注意机制”,最后将得到的两个特征拼接起来得到混合特征,再通过空间注意力机制,整个过程可以表示为

Dynamic Selective Network for RGB-D Salient Object Detection_第3张图片

3.3 动态选择模块 (DSM)

DSM作用是自动选择和合并跨模态特征(RGB图和深度图),自主优化和加强跨层次和多尺度的深度特征,DSM由两个子模态构成,CAMBGPM

3.3.1跨模态注意模块CAM

Dynamic Selective Network for RGB-D Salient Object Detection_第4张图片 CAM模块

CAM作用是探索RGB图和深度图两个模态的相关性,突出空间特征并融合跨模态特征。 

具体过程,将每一层得到的两个特征送到CAM模块进行融合。如上图所示,首先将两个特征相加起来,再将得到的特征与原始输入进行拼接,可以表示为

 设置了7个不同的并行卷积层,s代表步长,p表示填充,d为膨胀系数,特别是,我们使用shortcut分支来保留原始信息。 同时,参考[40]的架构,我们同时使用全局最大池化操作和全局平均池化操作来计算空间统计。 不同之处在于我们生成了一个包含八个元素的向量 FLS,以匹配并行卷积层的数量(包括快捷分支)。 然后,我们通过自适应选择优化跨层深度特征,公式为:

为了加强空间结构特征,我们再次采用空间注意力机制,将 Sigmoid 函数替换为 Tanh 函数,以扩大前景特征和背景特征之间的差距,抑制背景区域,突出显着区域。 整个计算过程实现为 

 

3.3.2 双向门控池化模块BGPM

比较复杂,就不进行研究了

Dynamic Selective Network for RGB-D Salient Object Detection_第5张图片 BGPM模块

 

 

你可能感兴趣的:(RGB-D,大数据)