ICNet: Information Conversion Network for RGB-D Based Salient Object Detection

​​​​​ICNet:用于基于 RGB-D 的显著性目标检测的信息转换网络

IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 29, 2020

存在的问题

之前的融合策略:在输入图像、提取特征和输出结果三个融合域中利用RGB图像和深度图之间的相关correlation性。

  1. 以上融合策略不能完全捕捉RGB图像和深度图之间的复杂相关性。
  2. 没有充分挖掘信息的跨模态互补性和跨层次连续性
  3. 没有区别对待不同来源的信息。

解决问题的方法

信息转换模块(ICM):以交互式和自适应的方式融合高级RGB和深度特征,它包含级联操作concatenation operations和关联层correlation layers。

跨模态深度加权组合 (CDC) 块:区分来自不同来源的跨模态特征,并在每个级别使用深度特征增强 RGB 特征。

网络框架

ICNet由四个组件组成:

  1. 编码器    2)ICM    3)CDC块    4)解码器

ICNet: Information Conversion Network for RGB-D Based Salient Object Detection_第1张图片

Network Overview and Motivation

1 Siamese Encoder(特征提取)

编码器采用 Siamese 网络的结构(具有共享权重),增加网络的一致性并减少可训练参数的数量,将单通道深度图编码为三通道 HHA 表示(更多的几何信息)。 RGB 图像和HHA中提取特征。

2 ICM Module(信息转换)

ICM配备了关联卷积运算级联卷积运算

我们使用关联层的匹配能力来找到 RGB conv5_3 特征 f5R  和深度 conv5_3 特征f5D 之间的共同显著对象。

关联层是通过在两个特征图之间执行乘法路径比较来实现的,它提供了两个特征图的匹配能力。

使用级联卷积来融合特征   f5R f5D

这样,即使 RGB 图像或深度图的质量不理想,我们也可以通过并行进行 concatenation-convolution 操作和 correlation-convolution 操作获得合理的转换信息。

ICNet: Information Conversion Network for RGB-D Based Salient Object Detection_第2张图片

  1. f5R f5D 级联,送到具有3x3核尺寸和512通道的卷积层。
  2. 同时,f5R f5D 交互自适应方式,进行2关联运算处理(R-D Correlation” and “D-R Correlation
  3. 然后,将交互关联特征级联起来,通过一个 3×3 内核大小和 512 个通道的卷积层进行自适应集成。
  4. 最后,来自级联卷积操作和关联卷积操作的特征被级联以生成互补特征,即fCM  

ICM 中的过程可以表述为:

3 CDC Block(跨模态特征交互)

利用深度图的特征通过权重机制增强RGB图像的特征,该机制对不同来源的特征进行不同的处理

ICNet: Information Conversion Network for RGB-D Based Salient Object Detection_第3张图片

  1. 深度特征fiD 通过3×3核大小的卷积层进行处理,以产生平滑的深度特征,其通道数与RGB特征fiR 相同,即ci。这些平滑的深度特征通过 Sigmoid 函数将值归一化为 [0,1]。通过这种方式,我们得到了深度权重响应图
  2. 深度权重响应图与RGB特征fiR 以通过元素相乘来关注所需的特征部分。得到了初始增强的 RGB 特征。
  3. 残差连接(即元素求和)将fiR 叠加到初始增强RGB特征上,得到最终的增强RGB特征。
  4. 通过跨通道级联将其与最终增强的 RGB 特征相结合,得到深度权重 ( DW) 特征

4 Decoder(跨层次信息融合以及生成最终的显著图)

添加对特征的像素级 GT 监督。


B. Implementation Details

1 Decoder Network

在解码器网络的每一层,fDW  都与相应的反卷积特征连接以进行连续推理。值得注意的是,我们在反卷积层之前采用了一个 dropout 层以避免过度拟合。

2 Loss Function

RGB 编码器流和每个反卷积层的后面添加一个 3×3 内核大小的卷积层,以获得侧输出显着图,然后我们在侧输出显着性图后面采用不同尺度的深度监督,即图3中的“SS1”“SS6”

因此,总损失函数Ltotal可以表示为:

你可能感兴趣的:(RGB-D,目标检测,计算机视觉,cnn)