MobileSal: Extremely Efficient RGB-D Salient Object Detection

一 Motivation

神经网络计算成本高

二 Solution

提出了一种隐式深度恢复(IDR)技术来增强移动网络对 RGB-D SOD 的特征表示能力。 IDR 只在训练阶段采用,在测试时省略,因此计算上是免费的。

提出了紧凑的金字塔细化(CPR),用于有效的多级特征聚合,以导出具有清晰边界的显着对象。

三 Framework

3.1概括

使用 RGB depth 流进行单独的特征提取。

RGB 流:采用 MobileNetV2 作为骨干网络,五个阶段的输出特征图表示为 C1、C2、C3、C4、C5

depth 流:与 RGB 流类似,深度流也有五个步幅相同的阶段。 由于深度图包含的语义信息少于相应的 RGB 图像,因此构建了一个轻量级深度网络,其卷积块少于 RGB 流。 每个阶段只有两个倒置残差块(IRB)。 这样的设计降低了计算复杂度。

在每个 IRB 中,我们首先通过 1×1 卷积将特征图沿通道维度扩展 M 倍,然后是具有相同输入和输出通道数的深度可分离 3×3 卷积。 然后,通过另一个 1×1 卷积将特征通道压缩到 1/M。 在这里,除了最后一个只有一个 BN 层的 1×1 卷积之外,每个卷积后面都是批归一化 (BN) [62] 和 ReLU [63] 层。 反转残差块的最终输出是初始输入和上述三个顺序卷积生成的输出的元素级和。 对于每个阶段的第一层,将深度可分离卷积的步长设置为2,并根据需要增加隐藏特征通道的数量。 深度流的五个阶段的输出特征图表示为D1、D2、D3、D4、D5,其中前四个分别有16、32、64、96个通道。  D5 和 C5 具有相同的通道数和相同的步幅。

如图所示,利用 RGB 和深度流的输出,我们首先融合提取的 RGB 特征 C5 和深度特征 D5,生成 RGB-D 特征 CD 5 。 所提出的 IDR 技术从 C1、C2、C3、C4、CD 5 恢复深度图,由输入深度图监督以加强特征表示学习。 对于显着性预测,我们设计了一个以 CPR 模块为基本单元的轻量级解码器。 底层解码器的输出是最终预测的显着图。 更多细节可以在以下部分中看到。

MobileSal: Extremely Efficient RGB-D Salient Object Detection_第1张图片3.2 跨模态特征融合方案(CMF)

        深度图对具有复杂纹理场景的彩色图像提供了空间线索,有利于区分前景和背景。本文的特点是,不是在多个级别进行融合,而是只在最粗级别融合,因此高层次的特征分辨率导致的计算成本较低。 作者采用像门这样的深度特征通过乘法来增强 RGB 语义特征

MobileSal: Extremely Efficient RGB-D Salient Object Detection_第2张图片

         具体来说,首先将 RGB 和深度特征与上述 IRB 相结合,以得出过渡的 RGB-D 特征图 T,其可以表示为

全局平均池(GAP)层应用于 C5 以获得特征向量,然后是两个全连接层来计算 RGB 注意力向量 v

然后把 vT D5 的乘积送入 IRB模块

 通过乘以D5再次过滤RGB语义特征,通道注意力 用于重新校准融合的特征。 RGB和深度特征融合后,我们可以推导出主干特征,包括RGB特征C1、C2、C3、C4和融合的RGBD特征CD 5

 

3.3隐式深度恢复(IDR)

使用“隐式”这个词,因为 IDR 仅在训练阶段采用,在测试期间被省略。使用 C1、C2、C3、C4、CD 5 进行辅助监督。

如图所示,IDR 的流程很简单,即只需连接多级特征图,然后将它们融合。

MobileSal: Extremely Efficient RGB-D Salient Object Detection_第3张图片

         具体来说,我们首先应用 1 × 1 卷积将 C1、C2、C3、C4、CD 5 压缩到相同数量的通道,即 256。然后,将生成的特征图调整为与 C4 相同的大小,然后 它们的串联。 一个 1 × 1 的卷积将连接的特征图从 1280 个通道更改为 256 个通道,以节省计算成本。 接下来,通过四个连续的 IRB 来融合多级特征,从而获得强大的多尺度特征。 最后,一个简单的 1×1 卷积将融合的特征图转换为单通道。 通过标准的 sigmoid 函数和双线性上采样,我们可以获得与输入大小相同的恢复深度图。 IDR的训练损失采用众所周知的SSIM度量[65]来衡量恢复的深度图Dr和输入一个Dg之间的结构相似性,可以写为

 其中 SSIM 使用默认设置。 注意,为了让IDR免费,测试过程中省略了上述操作。

3.4紧凑的金字塔细化(CPR)

MobileSal: Extremely Efficient RGB-D Salient Object Detection_第4张图片

 CPR首先应用1×1卷积将通道数扩展M倍。 然后,三个 3 × 3 深度可分离卷积,膨胀率为 1、2、3,并行连接以进行多尺度融合。 这可以表述为

MobileSal: Extremely Efficient RGB-D Salient Object Detection_第5张图片

 再使用1 × 1卷积将通道压缩到与输入相同的数量,即

 它使用残差连接进行更好的优化。使用全局上下文信息重新校准融合特征。 通道注意机制应用于 X 以计算注意力向量 v' ,因此我们有

 

 

你可能感兴趣的:(RGB-D,目标检测,深度学习,人工智能)