arXiv:2210.06747v1 [eess.IV] 13 Oct 2022
文章地址:https://arxiv.org/abs/2210.06747
代码地址:
结合RGB图像和相应的深度图进行语义分割在过去几年证明了有效性。现有的RGB-D模态融合方法要么缺乏非线性特征融合能力,要么对两种模态图像一视同仁,而不考虑固有分布差距或信息损失。在这里,我们发现深度图适合提供对象固有的细粒度模式,因为它们的局部深度连续性,而RGB图像有效地提供了全局视图。在此基础上,我们提出了一个像素差分卷积注意(DCA)模块来考虑深度数据的几何信息和局部距离相关性。此外,我们将DCA扩展到集成差分卷积注意(EDCA),它传播远程上下文依赖性,并无缝地整合RGB数据的空间分布。DCA和EDCA分别根据像素差动态调整卷积权值,实现局部自适应和远距离自适应。为了融合双模态数据的局部信息和全局信息,提出了一种基于DCA和EDCA的双分支网络——微分卷积网络(DCANet)。因此,强调了RGB和深度数据的个体优势。我们的DCANet在两个具有挑战性的基准数据集(即NYUDv2和SUN-RGBD)上为RGBD语义分割设置了最新的性能。
语义分割是计算机视觉中的一项重要任务,它可以推断出场景中每个像素的语义标签。随着Kinect、Xition等3D传感器的广泛使用,可以很容易地获取物体的三维几何信息,促进了RGB-D语义分割的发展。RGB- D图像在对真实几何信息进行编码后,克服了二维图像仅在投影图像空间中显示光度外观属性的挑战,丰富了RGB图像的表示形式。RGB和深度图像的信息以完全不同的形式呈现。特别是,RGB图像捕获了投影图像空间中的光度外观特性,而深度图可以为局部几何的外观线索提供丰富的补充信息。因此,增强和融合RGB数据和深度数据在语义分割任务中的优势至关重要。
在现实场景中,有太多具有复杂外观的具有挑战性的图像。以图1为例,虽然椅子和桌子在RGB图像中是不可分割的,但在深度上很容易区分。显然,仅用形状和颜色等二维信息将桌子和椅子分开是不可行的。而在深度图视图中,存在局部一致性信息,不受类似混淆现象的限制。事实上,深度数据提供了更细粒度的局部几何差异信息,从理论上讲,与只使用RGB图像相比,可以获得更好的分割性能。相比之下,经典的自我注意[54,60,63]机制证实,RGB数据关注更多的全局信息。
现有的方法[3,9 - 11,20,24,26,29,36,39]试图通过引入新的卷积层和池化层、注意机制、降噪模块等来融合RGB-D数据,以获得更好的语义分割结果。这些方法忽略了RGB和深度特征之间的内在差异,而是使用同构运算符。两类数据的权重被同等对待,从而对分割做出相同的贡献,这显然是不合适的。此外,RGB图像和深度图的信息主要来自组合的最终通道,没有考虑不同通道中的具体语义信息。
针对上述问题,我们提出了两种注意机制,即差分卷积注意(DCA)和集成差分卷积注意(EDCA),以提高语义分割中RGB数据与深度数据之间的跨模态能力。DCA使用像素差项动态地增加标准卷积,并强制与内核中心相差类似的像素对输出的贡献大于其他像素。DCA结合了局部几何信息,提高了深度数据的局部范围适应性。EDCA吸收了DCA动态卷积的优点,传播了远程上下文依赖性,无缝地融合了RGB数据的空间分布。同时,DCA和EDCA都避免了忽略信道维度适应性等常见缺陷。我们的主要贡献总结如下。
我们提出了一个DCA模块,它包含了局部范围复杂的几何模式,并通过考虑深度数据局部区域像素的细微差异来实现自适应。
我们将DCA扩展到EDCA,以实现远程相关性,并无缝结合RGB数据的空间分布。
基于DCA和EDCA,我们提出了在NYUDv2[47]和SUN-RGBD[48]数据集上实现最新性能的DCANet。我们还提供了设计选择和模型变体的详细分析。
在附加深度信息的帮助下,这两种互补模式的组合在语义分割中取得了很好的性能[3,9,17,27,28,45,47]。许多作品简单地将RGB和深度图像的特征串联起来,增强每个像素的语义信息[45,47]。融合方法可分为早期融合、中期融合和晚期融合三种。Cao等[3]将早期深度特征中由形状和基础分量分解的RGB和深度数据连接起来。然而,由于这两种模式的复杂性,由于它们之间的差异,单一模型无法很好地拟合它们的数据。Jiao等[27]设计了两个编码器-解码器模块,充分考虑了RGB和深度信息,其中两个模态在后期融合。在这种方法中,RGB的不同特征与深度数据之间的相互作用不足,模态的丰富信息逐渐被压缩甚至丢失。中期融合克服了早期和晚期融合策略的缺陷,通过融合两种不同模式的中间信息,实现了更好的融合效果。Gupta等人[18]将深度图像和深度图像的地心嵌入连接起来,在中间阶段提供最终的语义信息。值得注意的是,中期融合策略缩小了分布差距,并结合了多模态特征,互动性充分。因此,近年来的研究主要集中在中期融合。Chen等[9]提出了一种空间信息引导卷积,该卷积生成具有不同采样分布的卷积核,以增强网络的空间适应性和接受场调节能力。Chen等人将两种模态的数据中信息量最大的跨模态特征统一为一个有效的表示。Lin等人[29]基于几何信息将图像分割为多个分支,其中网络的每个分支在语义上分割相关的相似特征。
我们的方法应用了两个分支,每个分支都专注于提取模式特定的特征,如从RGB图像中提取颜色和纹理,从深度图像中提取几何、光照无关的特征。具体来说,类似于中间阶段融合,由DCA生成的注意深度特征在编码器的每个分辨率阶段从EDCA融合到注意RGB中。深度和RGB数据分别关注局部和长期信息。
注意力模块之所以如此受欢迎,很大程度上是因为它们可以被应用于几乎在网络的任何阶段对特征的全局依赖性建模。Woo等[56]通过卷积块注意模块自适应地细化空间维度和通道维度的信息。受自然语言处理[51]中的自注意网络的启发,这种自注意相关模块在计算机视觉中得到了广泛关注[44,50,61]。许多研究者关注全局依赖和局部依赖。在[54]中,Wang等人提出了一个非局部模型,将自我注意扩展为一种更通用的非局部过滤方法,用于捕获长期依赖关系。Fu等[15]提出了两个注意模块,分别捕获空间和通道的相互依赖性。Cao等人[4]提出了一种基于查询独立公式的轻量级非本地网络,用于全局上下文建模。Zhu等人[63]在考虑长期依赖关系和减少冗余参数的同时,集成了不同层次的特征。
我们的方法集成了DCA和EDCA,分别建立不同深度点与RGB数据之间的关系。DCA模块支持在深度数据的局部范围内,相同的对象具有更大的深度相似性,我们利用像素方面的差异,迫使几何形状更一致的像素对相应的输出做出更多贡献。EDCA模块支持RGB数据的远程依赖关系。
RGB- D语义分割需要融合来自RGB和深度模式的特征,这两者本质上是不同的。具体而言,RGB数据具有长程上下文相关性和全局空间一致性,而深度数据具有局部几何一致性。应分别考虑这两种模式的内在特征,以确定各自的优势,同时加强两种特征的表示。为此,我们提出了DCA和EDCA两个关注模块,分别捕捉深度和RGB数据的内在特征。在本节中,我们详细介绍了所提议的DCA和EDCA,然后描述了所提议的差分卷积注意网络(DCANet)。
注意机制可以看作是一种自适应选择过程,根据输入特征选择判别特征,自动忽略噪声响应[16]。注意机制的关键是学习不同点之间的关系,生成一个表示不同点重要性的注意图。建立不同点之间关系的众所周知的方法是自我注意机制[15,54,57,61],它用于捕获长期依赖。然而,由于深度数据的内在特性,它只与局部区域相关,而远程依赖可能会引入更多的干扰项。为此,我们在深度数据中考虑局部区域,通过卷积来构建相关性并生成注意图。
给定一个特征映射 F ∈ R h × w × c F∈R^{h×w×c} F∈Rh×w×c; h 、 w 、 c h、w、c h、w、c分别为输入特征图的高度、宽度和通道。为简单起见,我们记 X ∈ R h × w × 1 X∈R^{h×w×1} X∈Rh×w×1为输入特征映射。对于 X X X上的每一点 p ∈ R 2 p∈R^2 p∈R2,香草卷积的计算公式为:
Y ( p ) = ∑ i = 1 k × k K i ⋅ X ( p + p i ) , (1) Y(p) =\sum^{k×k}_{i=1}K_i · X(p + p_i),\tag{1} Y(p)=i=1∑k×kKi⋅X(p+pi),(1)
其中 p i p_i pi枚举 p p p周围的局部位置。 K K K是大小为 k × k k×k k×k的卷积核的可学习权值(为简单起见,忽略偏差项)。
在Eq.(1)中,对于任何输入,香草卷积的卷积核 K K K是固定的,它不能动态感知输入的变化。然而,对于深度数据,我们希望卷积生成的注意图能够实时感知几何信息,同时学习局部区域内不同点之间的相关性。为此,我们探索了一个像素差项来加权称为微分卷积核 K ∗ K^* K∗的香草卷积核:
K i ∗ = K i ⋅ e x p ( − ∣ X ( p ) − X ( p + p i ) ∣ ) , (2) K^∗_i = K_i · exp(−|X(p) − X(p + p_i)|), \tag{2} Ki∗=Ki⋅exp(−∣X(p)−X(p+pi)∣),(2)
K ∗ K^* K∗中的差项表示深度数据中的几何信息,然后正则化为(0,1),这确保任何两点之间的差越大,相关性越小,反之亦然。凭直觉,一点的深度是局部连续的。在差分项的支持下,差分卷积核 K ∗ K^* K∗不仅取决于输入特征,而且取决于卷积位置。因此,它对深度数据具有几何感知能力。在微分卷积核 K ∗ K^* K∗下,输入特征映射 X ∈ R h × w × 1 X∈R^{h×w×1} X∈Rh×w×1的微分卷积(DC)可写成:
Y ( p ) = ∑ i = 1 k × k K i ∗ ⋅ X ( p + p i ) , (3) Y(p) =\sum^{k×k}_{i=1}K^∗_i · X(p + p_i), \tag{3} Y(p)=i=1∑k×kKi∗⋅X(p+pi),(3)
如前所述,我们使用微分卷积核 K ∗ K^* K∗来计算局部接受场中不同点之间的相关性,且场大小与输入相关。在我们的实验中,深度数据的接受场大小为 9 × 9 9 × 9 9×9。为了减少计算量,我们应用深度可分离卷积[12]将一个微分卷积解耦为一个微分深度卷积和一个点卷积( 1 × 1 1 × 1 1×1卷积)。对于广义输入特征映射 F ∈ R h × w × c F∈R^{h×w×c} F∈Rh×w×c,我们的DCA模块定义为:
A t t e n t i o n = C o n v 1 × 1 ( D C − D W ( F ) ) , O u t p u t = A t t e n t i o n ⊗ F \begin{align*} Attention &= Conv_{1×1}(DC-DW(F)), \\ \tag{4} Output &= Attention ⊗ F \end{align*} AttentionOutput=Conv1×1(DC−DW(F)),=Attention⊗F(4)
其中Conv1×1表示1×1卷积,DC-DW表示微分深度卷积,其微分核由式(2)生成。 A t t e n t i o n ∈ R h × w × c Attention∈R^{h×w×c} Attention∈Rh×w×c表示具有相同大小的输入特征映射f的注意映射,注意映射中的每个值集成了深度图像局部范围内的几何信息,表示每个特征的重要性。⊗表示按元素排序的乘积。DCA的整个过程如图2顶部所示。
引入差分项的卷积核可以根据输入动态调整卷积权值。提出的DCA模块迫使几何形状更一致的点对相应的深度数据输出做出更大贡献。综上所述,DCA不仅在局部空间维度上具有灵活性,而且在信道维度上也具有灵活性,并集成了局部范围的几何信息。值得注意的是,基于通道的信息通常在cnn中表示不同的对象[5,43],这对分割任务也至关重要。
如前所述,RGB数据具有远程上下文依赖性和全局空间一致性。虽然自我注意[54,60,63]是学习不同点之间的关系以获取远程依赖的实用方法,但它只获得空间上的适应性,缺乏通道上的适应性。提出的DCA模块在空间维度和信道维度上都具有灵活性,并考虑了适合于深度数据的局部范围相关性。因此,对于RGB数据,扩展DCA来传播远程上下文依赖性是很直观的。
最直接的方法是在DCA中使用更大的核差分深度卷积。为了以更少的计算成本和参数捕获远程关系,我们将基于核的大DC分解为微分深度卷积、微分深度膨胀卷积和点卷积,称为集成微分卷积(EDC)。使用EDC,建议的EDCA可以写成:
F 1 = D C − D W ( F ) , F 2 = D C − D W D ( F 1 ) , A t t e n t i o n = C o n v 1 × 1 ( F 1 + F 2 ) , O u t p u t = A t t e n t i o n ⊗ F . \begin{align*} F_1 &= DC-DW(F), \\ \tag{5} F_2 &= DC-DWD(F_1), \\ Attention &= Conv_{1×1}(F_1 + F_2), \\ Output &= Attention ⊗ F. \end{align*} F1F2AttentionOutput=DC−DW(F),=DC−DWD(F1),=Conv1×1(F1+F2),=Attention⊗F.(5)
F ∈ R h × w × c F∈R^{h×w×c} F∈Rh×w×c与DCA类似,是输入特征映射。 C o n v 1 × 1 Conv_{1×1} Conv1×1表示1×1卷积,⊗表示逐元素积。DC-DW和DC-DWD分别表示微分深度卷积和微分深度膨胀卷积,微分卷积核为 K ∗ K^* K∗。图2显示了所提出的EDCA模块。
EDC内核的大小也依赖于输入。在我们的实验中,DC- dw的直流核尺寸为5 × 5, DC- dwd的直流核尺寸为9 × 9,膨胀量为3。通过上述设置,EDC的接收字段大小近似于29×29。图3 (d)给出了EDC中的卷积策略,为方便起见,我们给出了5 × 5卷积和5 × 5扩容后的卷积。因此,EDCA可以获得长程依赖性,而微分项则可以动态调整卷积权值,为RGB数据提供空间分布信息。综上所述,判别特征增强,噪声响应被忽略
已有研究证实,具有相同语义标签的像素在局部区域具有相似的深度[29,36,53]。DCA将几何感知能力集成到香草卷积中,生成一个注意图,显示深度数据中每个点的重要性。EDCA吸收了DCA动态卷积的优点,传播了远程上下文依赖性,无缝地融合了RGB数据的空间分布。
Properties | Convolution | self-attention | DCA | EDCA |
---|---|---|---|---|
Geometry Structure | ✘ | ✘ | ✔ | ✘ |
Local-range dependence | ✔ | ✘ | ✔ | ✔ |
Long-range dependence | ✘ | ✔ | ✘ | ✔ |
Spatial adaptability | ✘ | ✔ | ✔ | ✔ |
Channel adaptability | ✘ | ✘ | ✔ | ✔ |
如表1所示,我们提出的DCA和EDCA结合了卷积和自注意的优点。通过用像素差项增加卷积核,DCA捕获具有局部接受场的几何图形。与香草卷积相比,DCA的可学习权值由几何方差调整。在此基础上,利用我们分解的大核,扩展EDCA,进一步捕获满意的接收野中细化的像素差异。
用于RGB-D语义分割的DCANet结构如图4所示。我们的DCANet采用DeepLabv3+[8]作为RGB-D语义分割任务的基线,其中编码器为ResNet-101[19],保留了DeepLabv3+原有的解码器。我们在DCANet中应用了两个分支结构,一个用于RGB,另一个用于深度数据。
在ResNet-101的四个分辨率阶段中,深度特征通过注意和融合块融合到RGB编码器中。具体来说,两种模式的通道维数首先被压缩到1/8进行降维。接下来,我们同时对深度数据和RGB数据应用DCA和EDCA。第三,对DCA和EDCA的输出进行卷积,以匹配原始特征的维度,并分别与原始特征进行元素求和。最后,将提取互补几何信息的深度数据通过元素求和的方法整合到RGB数据中,获得更好的特征表示。注意和融合块的输出如下:
D e p t h o u t = W 2 ( D C A ( W 1 ( D e p t h i n ) ) ) + D e p t h i n , R G B o u t = W 2 ′ ( E D C A ( W 1 ′ ( R G B i n ) ) ) + R G B i n , R G B o u t = R G B o u t + D e p t h o u t \begin{align*} Depth_{out} &= W_2 (DCA(W_1(Depth_{in}))) + Depth_{in},\\ \tag{6} RGB_{out} &= W'_2 (EDCA(W'_1(RGB_{in}))) + RGB_{in},\\ RGB_{out }&= RGB_{out} + Depth_{out} \end{align*} DepthoutRGBoutRGBout=W2(DCA(W1(Depthin)))+Depthin,=W2′(EDCA(W1′(RGBin)))+RGBin,=RGBout+Depthout(6)
其中 W 1 ( W 1 ′ ) W_1 (W'_1) W1(W1′)和 W 2 ( W 2 ′ ) W_2 (W'_2) W2(W2′)分别表示 1 × 1 1 × 1 1×1卷积对信道进行挤压和恢复。值得注意的是,最后一个块的融合输出RGB特性被传播到段解码器。
在两个流行的RGB-D数据集上执行评估:NYUDv2 [47]:
NYUDv2包含1449张带有像素级标签的RGB-D图像。我们遵循40类设置和标准分割,使用795张训练图像和654张测试图像。
SUN-RGBD[48]:该数据集有37类对象,由10335张RGB-D图像组成,其中5285张作为训练图像,5050张作为测试图像。
我们使用两个常见的指标来评估结果,即像素精度(像素Acc)和平均交点过并(mIoU)。
我们使用在ImageNet[46]上预训练的扩张型ResNet-101[19]作为骨干网进行特征提取,并在ResNet101的最后阶段添加另一个辅助损耗。我们保持DeepLabv3+[8]的所有其他设置相同。我们使用PyTorch深度学习框架[40]实现我们的网络,所有模型都使用两个Nvidia Tesla V100 gpu进行训练。我们使用初始学习率0.008的“poly”策略[34],作物大小480×480,批大小8,在训练时微调批归一化参数[25]和数据增强方法(即随机缩放、随机裁剪和左右翻转)。对于优化器,我们使用动量为0.9和权值衰减为0.0001的SGD。此外,我们对NYUDv2数据集进行了500个周期的训练,对SUN-RGBD数据集进行了200个周期的训练。为了与其他方法进行比较,我们在推理过程中同时采用了单尺度和多尺度测试策略。如果没有特别说明,这些实验是单尺度测试,表中的 ‘ ∗ ’ ‘*’ ‘∗’表示多尺度策略。
DCA的DC内核大小。我们的DCA模块采用9 × 9,膨胀1的DC核来获取深度数据的局部几何信息。为了确认应用9×9 DC内核的有效性,我们尝试在深度数据上使用其他DC内核大小的DCA,而不对RGB数据执行任何操作。表2所示的结果证明,由于深度数据的局部几何性质和我们的设置,较大的DC内核不会带来显著的性能提升。
DC kernel size | Pixel Acc. | mIoU |
---|---|---|
3 × 3 | 75.3 | 49.1 |
5 × 5 | 75.7 | 49.7 |
7 × 7 | 76.0 | 50.1 |
9 × 9 | 76.5 | 50.9 |
11 × 11 | 76.4 | 50.9 |
DCA和EDCA模块的有效性。我们在NYUDv2数据集上进行了消融研究,以证明DCA和EDCA模块的不可缺少性。我们执行两个并行的DeepLabv3+ (ResNet-101)作为基线。如表3所示,两个注意模块显著提高了性能。与基线相比,仅在深度数据上使用DCA提高了3.5%的mIoU,而在RGB数据上仅使用EDCA提高了3.9%。当我们同时应用这两个模块时,性能进一步提高到77.3%(像素Acc)和52.1% (mIoU)。结果表明,这两个模块对于性能改进都是至关重要的,并且在结合时工作效果最好。
Method | DCA | EDCA | Pixel Acc.% | mIoU% |
---|---|---|---|---|
Baseline | 75.1 | 47.4 | ||
Model1 | ✔ | 76.5 | 50.9 | |
Model2 | ✔ | 76.9 | 51.3 | |
DCANet | ✔ | ✔ | 77.3 | 52.1 |
EDCA与Self-Attention。自注意机制,如非局部神经网络[54],是捕获长期依赖性的著名方法。我们将自我注意的表现与我们提出的EDCA进行了比较。如Tab所示。EDCA在mIoU和像素Acc中优于自我注意。分别下降2%和0.8%。自注意机制具有空间自适应能力,但不像EDCA那样同时具有通道自适应能力。然而,信道适应性在细分任务中起着至关重要的作用。此外,我们还通过去除EDCA中的微分项EDCA-来验证EDCA中微分项的有效性。表4的结果表明,差分项带来1.2%的mIoU改善。EDCA中的这一术语在动态感知场景的同时,为RGB数据提供长范围的空间分布信息。
DCA和EDCA的适用性。在DCANet中,我们对深度数据应用DCA获取局部距离相关性和几何信息,对RGB数据应用EDCA获取远程相关性和空间分布信息。我们还通过对深度数据应用EDCA和对RGB应用DCA来验证这两个模块的适用性。如表5所示,在深度上使用DCA比EDCA提高mIoU 1.7%,在RGB上使用EDCA比DCA提高mIoU 1.6%。结果表明,DCA和EDCA分别适用于Depth和RGB数据。这也解释了深度图由于局部深度连续性,更适合提供物体的内在几何信息,而RGB图像有效地提供了全局视图。
RGB | Depth | Pixel Acc. | mIoU |
---|---|---|---|
EDCA | 76.9 | 51.3 | |
DCA | 76.2 | 49.7 | |
DCA | 76.5 | 50.9 | |
EDCA | 76.1 | 49.2 |
我们提出的DCA和EDCA是RGB-D语义分割的通用模块,可以很容易地插入cnn作为语义分割的注意模块。我们的方法还针对几种具有代表性的语义分割架构进行了评估:Deeplabv3+[8]、Deeplabv3[7]、PSPNet[33]和FPN[62],这些架构在NYUDv2数据集上具有不同的主干(ResNet-50、ResNet-101[19]),以验证其可泛化性。如表6所示,在所有设置下,我们的方法都以理想的幅度优于基线,证明了我们方法的泛化能力。
NYUDv2。对比结果见表7。我们的方法取得了领先的性能。与这些方法相比,我们的模型更关注RGB和深度数据内部的可变性,并应用不同的模块来增强特征表示。D-CNN[53]提出的深度感知卷积与我们的方法更相似。为了便于比较,在单次测试下,D-CNN的mIoU为48.4,而我们的模型的评分为52.1,提高了3.7%。这是因为我们使用深度卷积来生成特征图,而使用DCA和EDCA来生成指示不同点重要性的注意图。此外,深度感知卷积只比较深度图中局部区域的相似性,而忽略了RGB数据的长程依赖性和全局空间一致性,这些都可以被EDCA捕获。
Method | Pixel Acc.(%) | mIoU(%) |
---|---|---|
LSD-GF [11] | 71.9 | 45.9 |
D-CNN [53] | - | 48.4 |
MMAF-Net [14] | 72.2 | 44.8 |
ACNet [23 | - | 48.3 |
ShapeConv [3] | 75.8 | 50.2 |
RDF [39]* | 76.0 | 50.1 |
M2.5D [58]* | 76.9 | 50.9 |
SGNet [9]* | 76.8 | 51.1 |
SA-Gate [10]* | 77.9 | 52.4 |
InverseForm [2]* | 78.1 | 53.1 |
ShapeConv [3]* | 76.4 | 51.3 |
DCANet | 77.3 | 52.1 |
DCANet* | 78.2 | 53.3 |
SUN RGB-D。表8显示了在SUN RGBD数据集上的测试结果。与其他最先进的方法相比,DCANet在单尺度和多尺度测试下都取得了最好的结果。
Method | Pixel Acc.(%) | mIoU(%) |
---|---|---|
3DGNN [42] | - | 44.1 |
D-CNN [53] | - | 42.0 |
MMAF-Net [14] | 81.0 | 47.0 |
SGNet [9] | 81.0 | 47.5 |
ShapeConv [3] | 82.0 | 47.6 |
ACNet [23] | - | 48.1 |
3DGNN [42]* | - | 45.9 |
CRF [29]* | - | 48.1 |
RDF [39]* | 81.5 | 47.7 |
SA-Gate [10]* | 82.5 | 49.4 |
SGNet [9]* | 82.0 | 47.6 |
ShapeConv [3]* | 82.2 | 48.6 |
DCANet | 82.2 | 48.1 |
DCANet* | 82.6 | 49.6 |
图5显示了NYUDv2和SUN RGB-D数据集的定性结果。结果表明,DCA和EDCA模块可以很好地增强深度图像的局部几何信息和RGB图像的全局依赖性。正如右边第二行所示,我们的DCANet成功地识别了整个灯,包括它的支架,而在强光条件下它甚至无法识别。这是因为我们的模型有效地结合了两种模态数据的优点。具体来说,当物体的二维信息不可靠时,模型会合理利用相应的几何信息。在左侧第二行中可以找到类似的例子。
为了验证我们的模型的DCA和EDCA的有效性,我们应用了基线模型和DCANet的响应映射。如图6所示,经过改进的特征图证明了我们的方法在捕获像素级微妙信息(边缘区域)时的分割有效性,在这些信息中像素差分卷积很重要。RGB和深度数据的注意图还说明,DCA为深度数据提供了内在的细粒度局部几何差异信息,而EDCA有效地为RGB数据提供了全局视图。
考虑到RGB和深度数据的内在差异,我们通过引入DCA和EDCA两个即插即用模块,提出了一种先进的微分卷积注意网络。DCA动态感知深度数据中局部区域的细微几何信息。EDCA吸收了DCA动态卷积的优点,传播了远程上下文依赖性,无缝地融合了RGB数据的空间分布。利用DCA和EDCA生成的注意映射增强特征表示能力,进一步提高模型性能。
[1] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla. Segnet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE transactions on pattern analysis and machine intelligence, 39(12):2481–2495, 2017.
[2] Shubhankar Borse, Ying Wang, Yizhe Zhang, and Fatih Porikli. Inverseform: A loss function for structured boundary-aware segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5901–5911, 2021. 7
[3] Jinming Cao, Hanchao Leng, Dani Lischinski, Daniel Cohen-Or, Changhe Tu, and Y angyan Li. Shapeconv:Shape-aware convolutional layer for indoor rgbd semantic segmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 7088–7097, 2021. 2, 7
[4] Y ue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei, and Han Hu. Gcnet: Non-local networks meet squeeze-excitation networks and beyond. In Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops, pages 0–0, 2019. 3
[5] Long Chen, Hanwang Zhang, Jun Xiao, Liqiang Nie,Jian Shao, Wei Liu, and Tat-Seng Chua. Sca-cnn:Spatial and channel-wise attention in convolutional networks for image captioning. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5659–5667, 2017. 4
[6] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Y uille. Deeplab:Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs.IEEE transactions on pattern analysis and machine intelligence, 40(4):834–848, 2017.
[7] Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587, 2017. 7
[8] Liang-Chieh Chen, Y ukun Zhu, George Papandreou,Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In Proceedings of the European conference on computer vision (ECCV), pages 801–818,2018. 5, 7
[9] Lin-Zhuo Chen, Zheng Lin, Ziqin Wang, Y ong-Liang Y ang, and Ming-Ming Cheng. Spatial information guided convolution for real-time rgbd semantic segmentation. IEEE Transactions on Image Processing,30:2313–2324, 2021. 2, 7
[10] Xiaokang Chen, Kwan-Y ee Lin, Jingbo Wang, Wayne Wu, Chen Qian, Hongsheng Li, and Gang Zeng. Bidirectional cross-modality feature propagation with separation-and-aggregation gate for rgb-d semantic segmentation. In European Conference on Computer Vision, pages 561–577. Springer, 2020. 2, 7
[11] Y anhua Cheng, Rui Cai, Zhiwei Li, Xin Zhao, and Kaiqi Huang. Locality-sensitive deconvolution networks with gated fusion for rgb-d indoor semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3029–3037, 2017. 2, 7
[12] Franc ¸ois Chollet. Xception: Deep learning with depthwise separable convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1251–1258, 2017. 4
[13] Henghui Ding, Xudong Jiang, Bing Shuai, Ai Qun Liu, and Gang Wang. Semantic segmentation with context encoding and multi-path decoding. IEEE Transactions on Image Processing, 29:3520–3533,2020.
[14] Fahimeh Fooladgar and Shohreh Kasaei. Multimodal attention-based fusion model for semantic segmentation of rgb-depth images. arXiv preprint arXiv:1912.11691, 2019. 7
[15] Jun Fu, Jing Liu, Haijie Tian, Y ong Li, Y ongjun Bao,Zhiwei Fang, and Hanqing Lu. Dual attention network for scene segmentation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 3146–3154, 2019. 3
[16] Meng-Hao Guo, Cheng-Ze Lu, Zheng-Ning Liu,Ming-Ming Cheng, and Shi-Min Hu. Visual attention network. arXiv preprint arXiv:2202.09741, 2022. 3
[17] Saurabh Gupta, Pablo Arbelaez, and Jitendra Malik. Perceptual organization and recognition of indoor scenes from rgb-d images. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 564–571, 2013. 2
[18] Saurabh Gupta, Ross Girshick, Pablo Arbeláez, and Jitendra Malik. Learning rich features from rgb-d images for object detection and segmentation. In European conference on computer vision, pages 345–360.Springer, 2014. 2
[19] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition.In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.5, 7
[20] Y ang He, Wei-Chen Chiu, Margret Keuper, and Mario Fritz. Std2p: Rgbd semantic segmentation using spatio-temporal data-driven pooling. In Proceedings of the IEEE Conference on Computer Vision and Patern Recognition, pages 4837–4846, 2017. 2
[21] Jie Hu, Li Shen, Samuel Albanie, Gang Sun, and Andrea V edaldi. Gather-excite: Exploiting feature context in convolutional neural networks. Advances in neural information processing systems, 31, 2018.
[22] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition,pages 7132–7141, 2018.
[23] Xinxin Hu, Kailun Y ang, Lei Fei, and Kaiwei Wang.Acnet: Attention based network to exploit complementary features for rgbd semantic segmentation. In 2019 IEEE International Conference on Image Processing (ICIP), pages 1440–1444. IEEE, 2019. 7
[24] Farzad Husain, Hannes Schulz, Babette Dellen,Carme Torras, and Sven Behnke. Combining semantic and geometric features for object class segmentation of indoor scenes. IEEE Robotics and Automation Letters, 2(1):49–55, 2016. 2
[25] Sergey Ioffe and Christian Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In International conference on machine learning, pages 448–456. PMLR, 2015. 5
[26] Jindong Jiang, Lunan Zheng, Fei Luo, and Zhijun Zhang. Rednet: Residual encoder-decoder network for indoor rgb-d semantic segmentation. arXiv preprint arXiv:1806.01054, 2018. 2
[27] Jianbo Jiao, Y unchao Wei, Zequn Jie, Honghui Shi,Rynson WH Lau, and Thomas S Huang. Geometry-aware distillation for indoor semantic segmentation.In Proceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition, pages 2869–2878, 2019. 2
[28] Salman H Khan, Mohammed Bennamoun, Ferdous Sohel, Roberto Togneri, and Imran Naseem. Integrating geometrical context for semantic labeling of indoor scenes using rgbd images. International Journal of Computer Vision, 117(1):1–20, 2016. 2
[29] Di Lin, Guangyong Chen, Daniel Cohen-Or, PhengAnn Heng, and Hui Huang. Cascaded feature network for semantic segmentation of rgb-d images. In Proceedings of the IEEE international conference on computer vision, pages 1311–1319, 2017. 2, 5, 7
[30] Guosheng Lin, Anton Milan, Chunhua Shen, and Ian Reid. Refinenet: Multi-path refinement networks for high-resolution semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1925–1934, 2017.
[31] Guosheng Lin, Chunhua Shen, Anton V an Den Hengel, and Ian Reid. Efficient piecewise training of deep structured models for semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3194–3203, 2016.
[32] Min Lin, Qiang Chen, and Shuicheng Y an. Network in network. arXiv preprint arXiv:1312.4400, 2013.
[33] Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2117–2125, 2017. 7
[34] Wei Liu, Andrew Rabinovich, and Alexander C Berg.Parsenet: Looking wider to see better. arXiv preprint arXiv:1506.04579, 2015. 5
[35] Jonathan Long, Evan Shelhamer, and Trevor Darrell.Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3431–3440, 2015.
[36] Haiyang Mei, Bo Dong, Wen Dong, Pieter Peers, Xin Y ang, Qiang Zhang, and Xiaopeng Wei. Depth-aware mirror segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3044–3053, 2021. 2, 5
[37] Vinod Nair and Geoffrey E Hinton. Rectified linear units improve restricted boltzmann machines. In Icml,2010.
[38] Timo Ojala, Matti Pietikainen, and Topi Maenpaa.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Transactions on pattern analysis and machine intelligence, 24(7):971–987, 2002.
[39] Seong-Jin Park, Ki-Sang Hong, and Seungyong Lee.Rdfnet: Rgb-d multi-level residual feature fusion for indoor semantic segmentation. In Proceedings of the IEEE international conference on computer vision,pages 4980–4989, 2017. 2, 7
[40] Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al. Pytorch: An imperative style, highperformance deep learning library. Advances in neural information processing systems, 32, 2019. 5
[41] Lu Qi, Li Jiang, Shu Liu, Xiaoyong Shen, and Jiaya Jia. Amodal instance segmentation with kins dataset.In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3014–3023, 2019.
[42] Xiaojuan Qi, Renjie Liao, Jiaya Jia, Sanja Fidler, and Raquel Urtasun. 3d graph neural networks for rgbd semantic segmentation. In Proceedings of the IEEE International Conference on Computer Vision, pages 5199–5208, 2017. 7
[43] Xu Qin, Zhilin Wang, Y uanchao Bai, Xiaodong Xie,and Huizhu Jia. Ffa-net: Feature fusion attention network for single image dehazing. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 11908–11915, 2020. 4
[44] Prajit Ramachandran, Niki Parmar, Ashish V aswani,Irwan Bello, Anselm Levskaya, and Jon Shlens.Stand-alone self-attention in vision models. Advances in Neural Information Processing Systems, 32, 2019.2
[45] Xiaofeng Ren, Liefeng Bo, and Dieter Fox. Rgb-(d)scene labeling: Features and algorithms. In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 2759–2766. IEEE, 2012. 2
[46] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang,Andrej Karpathy, Aditya Khosla, Michael Bernstein,et al. Imagenet large scale visual recognition challenge. International journal of computer vision,115(3):211–252, 2015. 5
[47] Nathan Silberman, Derek Hoiem, Pushmeet Kohli,and Rob Fergus. Indoor segmentation and support inference from rgbd images. In European conference on computer vision, pages 746–760. Springer, 2012. 2, 5
[48] Shuran Song, Samuel P Lichtenberg, and Jianxiong Xiao. Sun rgb-d: A rgb-d scene understanding benchmark suite. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 567–576, 2015. 2, 5
[49] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky,Ilya Sutskever, and Ruslan Salakhutdinov. Dropout:a simple way to prevent neural networks from overfitting. The journal of machine learning research,15(1):1929–1958, 2014.
[50] Ashish V aswani, Prajit Ramachandran, Aravind Srinivas, Niki Parmar, Blake Hechtman, and Jonathon Shlens. Scaling local self-attention for parameter efficient visual backbones. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12894–12904, 2021. 2
[51] Ashish V aswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems,30, 2017. 2
[52] Fei Wang, Mengqing Jiang, Chen Qian, Shuo Y ang,Cheng Li, Honggang Zhang, Xiaogang Wang, and Xiaoou Tang. Residual attention network for image classification. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3156–3164, 2017.
[53] Weiyue Wang and Ulrich Neumann. Depth-aware cnn for rgb-d segmentation. In Proceedings of the European Conference on Computer Vision (ECCV), pages 135–150, 2018. 5, 7
[54] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7794–7803, 2018. 2, 3, 4,6
[55] Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun, and Y unhe Wang. Multimodal token fusion for vision transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12186–12195, 2022.
[56] Sanghyun Woo, Jongchan Park, Joon-Y oung Lee, and In So Kweon. Cbam: Convolutional block attention module. In Proceedings of the European conference on computer vision (ECCV), pages 3–19, 2018. 2
[57] Enze Xie, Wenhai Wang, Zhiding Y u, Anima Anandkumar, Jose M Alvarez, and Ping Luo. Segformer:Simple and efficient design for semantic segmentation with transformers. Advances in Neural Information Processing Systems, 34, 2021. 3
[58] Y ajie Xing, Jingbo Wang, and Gang Zeng. Malleable 2.5 d convolution: Learning receptive fields along the depth-axis for rgb-d scene parsing. In European Conference on Computer Vision, pages 555–571. Springer,2020. 7
[59] Hanrong Y e and Dan Xu. Inverted pyramid multitask transformer for dense scene understanding. arXiv preprint arXiv:2203.07997, 2022.
[60] Han Zhang, Ian Goodfellow, Dimitris Metaxas, and Augustus Odena. Self-attention generative adversarial networks. In International conference on machine learning, pages 7354–7363. PMLR, 2019. 2, 4
[61] Hengshuang Zhao, Jiaya Jia, and Vladlen Koltun. Exploring self-attention for image recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10076–10085,2020. 2, 3
[62] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2881–2890, 2017. 7
[63] Zhen Zhu, Mengde Xu, Song Bai, Tengteng Huang,and Xiang Bai. Asymmetric non-local neural networks for semantic segmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 593–602, 2019. 2, 3, 4