【论文阅读】CIR-Net: Cross-Modality Interaction and Refinement for RGB-D Salient Object Detection

作者:Runmin Cong , Qinwei Lin , Chen Zhang , Chongyi Li , Xiaochun Cao , Qingming Huang , and Yao Zhao

期刊:IEEE Transactions on Image Processing ( Volume: 31) 2022

代码:rmcong/CIRNet_TIP2022 (github.com)

目录

Overview

Progressive Attention guided Integretion(PAI)

Refinement Middleware

Self-Modality Attention Refinement(smAR)

Cross-Modality Weighting Refinement(cmWR)

Importance Gated Fusion(IGF)

Loss Funtion


网络框架:

【论文阅读】CIR-Net: Cross-Modality Interaction and Refinement for RGB-D Salient Object Detection_第1张图片

Overview

两分支backbone均为CNN网络,输入分别是RGB和Depth图像。在encode阶段,高层次的RGB和Depth特征图通过Progressive Attention guided Integretion(PAI)生成RGB-D特征图。考虑到自模型的信息冗余和跨模态的内容完整,作者设计了self-modality attention refinement (smAR)和cross-modality weighing refinement (cmWR)。在decode阶段,通过importance gated fusion(IGF)完成RGB和Depth特征图和RGB-D特征图的融合,也就是说跨模态融合在encode和decode均出现。最终三个分支输出预测显著图。

Progressive Attention guided Integretion(PAI)

设计这部分主要考虑两个方面:(1)多层次信息融合;(2)信息提取和增强。对于(1),不同层次具有不同的信息表达,于是设计了由粗到细的跨层次融合方法;对于(2),仅有concat-conv的方式会导致信息冗余和特征混乱,于是设计了空间注意力来增强信息完整性和减小冗余。

【论文阅读】CIR-Net: Cross-Modality Interaction and Refinement for RGB-D Salient Object Detection_第2张图片

  

从第三层特征开始,对RGB和Depth特征图进行concat->conv->BN->activation,分别生成$$ \tilde{f}_{rgbd}^{i}, i=\left\{ 3,4,5 \right\} $$ \displaystyle。使用第三、四层的结果分别为四、五层生成空间注意力超量$$ A^{i-1},i=\left\{ 4,5 \right\} $$ \displaystyle,再进行空间增强$$ f_{rgbd}^{i}=\tilde{f}_{rgbd}^{i}\odot A^{i-1}+\tilde{f}_{rgbd}^{i}, i=\left\{ 4,5 \right\} $$ \displaystyle

Refinement Middleware

一个编解码之间的连接,用于修复本模态和跨模态的特征图,作者在此部分主要考虑了两个方面:(1)每个模态都包含由冗余的空间和通道信息,这给特征的学习造成了麻烦;(2)不同模态的联系和互补关系,比如RGB模态包含色彩对比、Depth模态包含结构对比。

针对这两方面,作者分别提出了Self-Modality Attention Refinement(smAR) Unit和Cross-Modality Weighting Refinement(cmWR) Unit

【论文阅读】CIR-Net: Cross-Modality Interaction and Refinement for RGB-D Salient Object Detection_第3张图片

 

Self-Modality Attention Refinement(smAR)

目前主要的空间和通道注意力使用的方法有三种:根据特征层次不同单独使用;对单一特征图连续地使用;平行使用再融合。但这三种方法均有缺点:单独使用不一定适用于所有任务;连续使用对空间和通道使用顺序要求严格;平行使用容易产生信息冗余并且同时只能增强一个方面,增加了计算量。针对这些问题作者提出了spatial-channel 3D attention tensor:1)使用平行方式提高鲁棒性,建立3D注意力模型减小计算量;2)同时在空间和通道维度修复单模态特征。

【论文阅读】CIR-Net: Cross-Modality Interaction and Refinement for RGB-D Salient Object Detection_第4张图片

 对于encode阶段最后产生的单模态特征图$$ f_{mod}^{5},mod=\left\{ r,d,rgbd \right\} $$ \displaystyle(图中是$$ F_{mod}^{5} $$ \displaystyle),先对其进行空间和通道注意力操作,再通过矩阵乘法$$ \otimes $$ \displaystyle生成3D注意力矩阵$$ A_{3D} $$ \displaystyle

$$ A_{3D}=SA\left( f_{mod}^{5} \right) \otimes CA\left( f_{mod}^{5} \right) $$ \displaystyle

再与点乘、加上残差块、卷积,生成新的单模态特征图

$$ f_{mod}^{smAR}=conv\left( A_{3D}\odot f_{mod}^{5}+f_{mod}^{5} \right) $$ \displaystyle

Cross-Modality Weighting Refinement(cmWR)

smAR单元修复了单一模态,但还没有充分利用不同模态间的联系和完整性,因此提出cmWR单元进一步获取长期的不同模态的依赖

【论文阅读】CIR-Net: Cross-Modality Interaction and Refinement for RGB-D Salient Object Detection_第5张图片

将smAR的输出通过一个可学习的矩阵(1*1conv+resharpe实现)转换为HW*C/2或者C/2*HW的四个矩阵$$ F_{\theta},F_{\xi},F_{\varphi},F_{\psi} $$ \displaystyle

$$ \\ F_{\theta}=W_{\theta}f_{r}^{smAR}, \\ F_{\xi}=W_{\xi}f_{d}^{smAR}, \\ F_{\varphi}=W_{\varphi}f_{rgbd}^{smAR}, \\ F_{\psi}=W_{\psi}f_{rgbd}^{smAR}, $$ \displaystyle

相乘后生成两个HW*HW的矩阵$$ M_{\1},M_{\2}$$ \displaystyle,这两个矩阵softmax激活后再点乘生成注意力图

$$ \\ M_1=soft\max \left( F_{\theta}^{T}\otimes F_{\xi} \right) , \\ M_2=soft\max \left( F_{\varphi}^{T}\otimes F_{\psi} \right) , \\ M=soft\max \left( M_1\odot M_2 \right) $$ \displaystyle

最终生成的跨模态全局相关性权值M矩阵,用以修复原图

$$ f_{mod}^{cmWR}=R\left( f_{mod}^{smAR} \right) \otimes M+f_{mod}^{smAR} $$ \displaystyle

Importance Gated Fusion(IGF)

作者认为在encode阶段更多地生成一般特征,而在decode阶段强调与显著区域有关的特征,因此,在decode阶段设计了一种跨模态信息交互的方法,考虑让RGB和Depth流继续引导RGB-D流。为了更有效地筛选有价值的信息,设计了一个动态更新可学习权重的重点矩阵$$ P^i $$ \displaystyle,用以选择性地控制跨模态的信息,比如筛掉一些低质量的特征图。

【论文阅读】CIR-Net: Cross-Modality Interaction and Refinement for RGB-D Salient Object Detection_第6张图片

 分别在RGB和Depth分支将encode和decode特征图通道维concatenate->double(Conv->BN->ReLU)生成两个显著预测图传递到下一层次,两者生成的显著预测图再通道维concatenate->Conv->BN->ReLU,生成decoder特征图$$ H^i $$ \displaystyle

由上层的IGF特征图与本层的$$ H^i $$ \displaystyle通过卷积->通道注意力->sigmoid激活生成本层的$$ P^i $$ \displaystyle

$$ P^i=sigmoid\left( CA\left( conv\left( \left[ H^i,f_{IGF}^{i+1} \right] \right) \right) \right) $$ \displaystyle

如此便生成第$$ i $$ \displaystyle层次的IGF特征图$$ f_{IGF}^{i} $$ \displaystyle

$$ f_{IGF}^{i}=conv\left( P^i\odot H^i+\left( 1-P^i \right) \odot f_{IGF}^{i+1} \right) ,i=\left\{ 5,4,3,2,1 \right\} $$ \displaystyle

注意这里的$$ i $$ \displaystyle与框架中输入的RGB和Depth的encode阶段特征图序号相反

Loss Funtion

作者对RGB、Depth和IGF三分支预测显著使用了交叉熵损失函数

$$ Loss=\ell _{bce}\left( S^r,G \right) +\ell _{bce}\left( S^d,G \right) +\ell _{bce}\left( S^{rgbd},G \right) $$ \displaystyle

 

 

 

你可能感兴趣的:(论文阅读)