目录
一、动机
二、相关工作
三、跨模态差异交互网络(CDINet)
3.1. RGB 诱导的细节增强(RDE) 模块:
3.2. 深度诱导语义增强(DSE)模块:
3.3. 密集解码重建(DDR)模块:
低级 RGB 特征可以帮助深度特征区分同一深度级别的不同对象实例,而高级深度特征可以进一步丰富 RGB 语义并抑制背景干扰。 为了充分发挥每种模态的优势,同时利用另一种模态来弥补自身,避免造成干扰。
解决特征编码器中的跨模态交互问题
提出了一种跨模态差异交互网络,根据不同层的特征表示,在编码器阶段对两种模态的依赖性进行差异建模,有选择地利用RGB特征补充深度分支的细节,并将深度特征转移到RGB模态中,以丰富语义表示。
(两种模式各有长处,根据它们的作用设计一种差异化的 RGB-D SOD 交互模式,以充分利用两者的优势)
1. 注意力机制
空间注意力机制[38]:使网络关注感兴趣的区域。
通道注意机制 [20] :学习每个通道的重要性。
在 RDE 和 DSE 模块中采用了空间方面和通道方面的注意。 此外,我们更关注注意力的跨模态应用,即利用一种模态生成的注意力图来增强另一种模态特征,从而以注意力的形式实现更有效的跨模态引导。
2. 跳过连接
Long-range skip connection是像素级预测任务中恢复图像细节的一种措施,几乎所有的RGB-D SOD模型都配备了它。 对于在编码器中发生跨模态交互的模型,跳过连接表示为直接的特征加法或连接, 对于在解码器中融合跨模态特征的其他网络,专有模块通常被设计为包含跳过特征(也称为边输出)。
该网络由三部分组成:(1)RDE(2)DSE(3)DDR
该网络遵循编码器-解码器架构:包括两个编码器(RGB 和深度模态)和一个解码器,两个编码器均采用 VGG16网络,丢弃最后的池化层和全连接层,作为主干提取相应的多级特征表示,实现跨模态信息交互。从主干提取的RGB特征(),深度特征()(其中和代表RGB和深度分支,∈{1,2,...,5}索引feature level)
(1)RDE低级特征编码阶段采用 (RDE)模块:将细节补充信息从 RGB 模态传递到 Depth 模态,从而增强深度特征的可区分性表示
(2)DSE高级特征编码阶段采用(DSE)模块:利用定位精度和深度特征内部一致性的优势,辅助RGB分支捕捉更清晰、更细粒度的语义属性,从而促进目标结构和背景抑制。
得益于这种差异化的交互方式,RGB 和深度分支可以相互补充,发挥各自的优势,最终生成更准确的语义表示。
(3)DDR:对于卷积上采样解码基础设施,即利用更高级别的跳跃连接特征作为指导信息,以实现更有效的编码器信息传输。
在低级编码器特征中,深度特征包含更详细信息(例如边界和形状),可以提供比 RGB 特征更直接和有指导意义的表示,这有利于初始特征学习,然而,难以区分同一深度级别的不同对象实例,但是在相应的RGB图像中,大多可以通过色差来区分。因此。设计RDE模块,通过低层中的 RGB 特征来增强和补充深度模态。
(1). 首先采用两个级联卷积层来融合两种模式的底层视觉特征。第一个卷积层,核大小为 1×1,用于减少特征通道数,第二个卷积层,核大小为3×3,实现了更全面的特征融合,从而生成融合特征池
生成不是将RGB特征直接转移到深度分支的优点,是可以增强两种模态的共同细节特征,并且可以在此过程中削弱不相关的特征。
(2). 为了切实地提供深度特征所需的有用信息,我们需要从深度角度进一步过滤RGB特征。对深度特征使用一个最大池化层、两个卷积层和一个 sigmoid 函数,以生成建议的空间注意 Mask。对于两个串行卷积层,使用更大的卷积核大小(即 7×7)来感知大感受野中的重要细节区域。最后,乘以 Mask 和特征池,减少无关RGB特征的引入,从而从深度模态的角度获得所需的补充信息。
由于深度分支中的细节特征更加直观和清晰,我们选择它们作为前两层的跳过连接特征进行解码。
在编码器阶段的高层,网络的学习特征包含更多的语义信息,RGB 图语义信息比深度图更全面。但是,深度图学习到的高级语义特征具有更好的显著对象定位,尤其是在背景区域的抑制方面,这正是RGB高级语义所要求的。因此,设计DSE模块,以借助深度模态来丰富RGB语义特征。然而,考虑到简单的融合策略(例如,直接添加或连接)不能有效地融合跨模态特征。作者采用两种交互模式来全面进行跨模态特征融合,即attention level 和 feature level。
(1)首先,从深度特征中学习一个 attention 向量 ℎ ∈R^(1×ℎ×),以引导 RGB 模态以 spatial attention 的方式关注感兴趣的区域,其中ℎ和表示特征图的高度和宽度。一方面,它有助于加强已经被认可的突出区域。 另一方面,它还允许 RGB 分支专注于被忽略或错误强调的信息。
具体来说,我们通过一个全局平均池化 () 层、两个全连通层 () 和一个sigmoid函数来学习权重向量 ∈ R ^(c×1 × 1),其中 表示特征图中的通道数。最终的 attention 指导制定为:
(2)至于特征层面的引导,我们使用逐像素相加操作直接融合两种模态的特征,可以加强显着对象的内部响应,获得更好的内部一致性。 应该注意的是,我们使用 cascaded attention 和 spatial attention 机制来增强深度特征并产生特征级增强特征
因此,最终流入RGB分支下一层的特征可以表示为:
再次将RGB分支的增强特征引入解码器阶段实现显著性解码重建。
该结构通过利用多个高级编码器特征来升级特征解码中的跳过连接来生成语义块。
对于encoder-decoder网络,随着卷积过程的深入,可以在encoding阶段获得全局语义表示,但是会丢失一些空间细节,因此仅仅在decoder阶段利用ground truth的监督是无法做到的。 达到完美的重建效果。
为了在特征解码中突出和恢复空间域信息,现有的 SOD 模型通过跳跃连接 引入编码器特征。 但是,它们只是通过直接加法或连接操作来引入相应编码器层的信息,没有充分利用不同层的编码器特征。 为了解决这个问题,我们提出了一种密集解码重建(DDR)结构,它通过密集连接更高级别的编码特征来生成语义块,为特征解码中的跳过连接提供更全面的语义指导。
在特征编码阶段,通过差异引导和交互来学习多层次的鉴别性的特征。解码器目的学习显著性相关特征并预测全分辨率显著图。在特征解码过程中,将编码特征引入解码器的跳过连接已广泛用于现有的 SOD 模型。然而,这些方法只建立了相应的编码和解码层之间的关系,而忽略了不同编码特征的不同积极影响。例如,顶层编码特征可以为每个解码层提供语义指导。因此,我们设计了一种密集的解码重构结构(DDR),以更全面地引入跳过连接指导。
具体来说,编码阶段每一层的构成一个 skip connection features 列表,( ∈ {1, 2, 3, 4, 5})。然后,在每一层的解码特征和skip connection features的组合之前,我们密集连接更高级别的编码器特征以生成语义块 ,用于约束当前对应 encoder 层的 skip connection 信息的引入,然后,通过语义块,我们采用元素乘法来消除冗余信息,并采用残差连接来保留原始信息。