TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer Embedding Network

TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer Embedding Network

TritranSnet:基于三重Transformer 嵌入网络的RGB-D显著目标检测 

ACM MM 2021


1 Motivation

1. U-Net框架在显著目标检测广泛应用,连续的卷积和池操作产生了相互补充的多层次特征。

2. CNN的U-NET框架对图像进行从低层到高层的编码,然后解码回全空间分辨率。从高级到低级逐渐聚合特征时,性能往往很快饱和。 换句话说,高级特性对性能的贡献更大。

TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer Embedding Network_第1张图片


2 Solution

提出了一个三重transformer嵌入模块,并将其嵌入到基于CNNU-NET框架中,以增强特征表示。 它由三个权重共享的标准transformer编码器组成,从多级特征中学习公共信息。 

在提出的三重transformer嵌入模块的基础上,设计了三重transformer嵌入网络来检测RGB-D图像中的显著目标。

TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer Embedding Network_第2张图片


 3 TriTransNet

3.1 概述

所提出的三重transformer嵌入网络的总体框架如图2(a)所示,它由多模态融合编码器、特征增强模块和三流解码器组成。 

深度和RGB数据首先通过resnet50的骨干网络,将每一个层产生的特征送到DPM中进行融合,将融合之后的特征与RGB特征进行残差连接得到增强特征,将高三层的增强特征通过transition层逐步上采样融合模块调整到相同大小,然后送入三重transformer嵌入模块增强特征表示。最后将三重transformer嵌入模块的输入和输出进行级联,以保留更多原始信息, 然后将输出与低两层的特征结合来实现解码过程。 TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer Embedding Network_第3张图片


 

3.2多模态融合编码器 

首先利用注意力机制对多模态特征进行纯化,然后利用残差连接作为RGB特征的补充。 残差部分设计为深度净化模块(DPM),采用短连接部分保留更多原始颜色信息。

TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer Embedding Network_第4张图片

在DPM中,将深度特征与颜色特征级联,送入通道注意力模块,  然后,将纯化的深度特征再次送入空间关注模块。 


3.3 特征增强模块

 ​​​​​​​TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer Embedding Network_第5张图片在该模块中,我们首先将高三层的特征调整到相同大小,然后使用三重transformer嵌入模块增强特征表示,最后将三重transformer嵌入模块的输入和输出连接起来以保留更多的原始信息。

 

3.3.1 尺度调整模块 (调整通道数和分辨率)

三重transformer嵌入模块由三个权重共享的标准transformer编码器组成。 它的输入应该是大小相同的特征。 

首先,采用包含3×3卷积和Relu激活函数的transition层。 它可以将多级特征的通道数调整到相同的大小。 

 然后,设计了一个渐进上采样融合模块,用于将高三层特征的分辨率调整到相同大小。

TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer Embedding Network_第6张图片

 3.3.2三重transformer嵌入模块(TTEM)​​​​​​​TriTransNet: RGB-D Salient Object Detection with a Triplet Transformer Embedding Network_第7张图片

首先将特征转换为特征嵌入序列,然后学习特定的位置嵌入,保留位置信息,再将其送入三个权重共享的标准transformer编码器,最后将特征reshape为原始大小。 

每个transformer包含多头自注意(MSA)和多层感知器(MLP)子层。 层归一化(LN)[2]插在这两个子层之前,残差连接在这两个子层之后进行。

3.3.3特征级联模块 

为了保留更多的原始信息,我们进一步将这些输出与原始特征级联

3.4三流解码器 

三流解码首先将特征增强模块的每个输出结果与低层的两个特征相结合,然后融合三流结果。

对上述三个特征进行上采样、卷积运算和Sigmoid函数,生成3个显著图S,这些显著图由真值图监督。

 最后,我们还将上述所有特征进行融合,生成最终的显著图。 

 

 

你可能感兴趣的:(RGB-D,目标检测,transformer,人工智能)