MMAF-Net: 基于多模态注意机制的RGB-Depth融合的语义分割模型

目录

一、Title

二、arXiv

三、Background

四、Model

五、Experiments

Experiment 1

Experiment 2

Experiment 3

Experiment 4

论文阅读时间:2021-4-20 20:07:56



一、Title

Multi-Modal Attention-based Fusion Model for Semantic Segmentation of RGB-Depth Images


二、arXiv

arXiv


三、Background

MMAF-Net: 基于多模态注意机制的RGB-Depth融合的语义分割模型_第1张图片

MMAF-Net: 基于多模态注意机制的RGB-Depth融合的语义分割模型_第2张图片

基于注意力机制的融合模块受注意力机制的启发,该网络注重于feature maps的channel-wise recalibration,对通道的dependency进行建模。从两个编码器的RGB和深度通道提取的中间特征图作为基于注意力机制的融合块的输入。基于注意力机制的融合块计算attention maps,attention maps再乘以输入的feature maps以进行自适应特征融合。基于注意力机制的融合模块由通道方向和空间方向的注意力机制组成,来构建attention maps。因此,基于两种模态在不同通道之间的相互依赖性来融合它们的feature maps。图2说明了基于注意力机制的融合块的架构。此外,每个AFB之后是lightweight chained redisual pooling layers,用于考虑解码器侧的全局上下文信息。

四、Model

MMAF-Net以RGB和深度模态的两个编码器分支同时作为输入,同时包含一个解码器分支。在解码器分支中,基于新提出的注意融合模块,融合同一分辨率下两个编码器分支的特征图,将外观和3D特征图结合起来。这些融合的feature map被用来恢复编码器的信息丢失,并产生高分辨率的预测输出。

MMAF-Net: 基于多模态注意机制的RGB-Depth融合的语义分割模型_第3张图片

提出的模型利用ResNet模型(Convi-x)的residual blocks作为两个独立的编码器分支。在deep residual network中使用identity map函数。

MMAF-Net: 基于多模态注意机制的RGB-Depth融合的语义分割模型_第4张图片

encoder branch的residual block的输出作为long跳跃连接,被馈送到解码器的4个级联子模块,称为多模态多分辨率融合(MRF)模块。MRF模块的结构见下图。

MMAF-Net: 基于多模态注意机制的RGB-Depth融合的语义分割模型_第5张图片


五、Experiments

Experiment 1

MMAF-Net: 基于多模态注意机制的RGB-Depth融合的语义分割模型_第6张图片

Experiment 2

MMAF-Net: 基于多模态注意机制的RGB-Depth融合的语义分割模型_第7张图片

Experiment 3

MMAF-Net: 基于多模态注意机制的RGB-Depth融合的语义分割模型_第8张图片

Experiment 4

MMAF-Net: 基于多模态注意机制的RGB-Depth融合的语义分割模型_第9张图片


论文阅读时间:2021-4-20 20:07:56

你可能感兴趣的:(语义分割,计算机视觉,深度学习,自动驾驶,多模态数据融合,RGB-D融合)