ECCV2022 | 多任务SOTA模型!分割/深度/边界/显著图四项任务

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

后台回复【BEV】即可获取论文!

后台回复【ECCV2022】获取ECCV2022自动驾驶方向所有论文!

后台回复【领域综述】获取自动驾驶感知融合定位近80篇综述论文!

论文标题:Inverted Pyramid Multi-task Transformer for Dense Scene Understanding

1摘要

本文提出了一种新的端到端倒金字塔多任务Transformer算法(InvPT),以在统一的框架中同时对多个空间位置和多任务进行建模。据称,本文是第一篇探索设计用于多任务密集预测以进行场景理解的Transformer算法。此外,更高的空间分辨率已经被证明对密集预测任务有益,而由于大空间尺寸的复杂性,现有基于Transformer的算法搭建更大分辨率的网络是十分具有挑战性的。InvPT 提出了一个高效的 UP-Transformer 模块,以逐渐增加的分辨率学习多任务特征交互,它还结合了高效的自注意力信息传递和多尺度特征聚合,以输出任务特定的高分辨率预测结果。相比于以往单任务的SOTA模型,InvPT在NYUD-v2数据集上取得了2.59%的相对提升,在PASCAL-Context数据集上取得了1.76%的相对提升。

ECCV2022 | 多任务SOTA模型!分割/深度/边界/显著图四项任务_第1张图片

2方法

ECCV2022 | 多任务SOTA模型!分割/深度/边界/显著图四项任务_第2张图片

InvPT的整体框架如上图所示,包含三个核心模块:

  • 多任务共享的InvPT Transformer encoder:首先,Transformer encoder从所有任务的输入图像中提取视觉特征,本文尝试使用ViT[14]和Swin Transformer[22]作为特征提取的主干;

  • 任务相关的preliminary decoders:然后,preliminary decoder生成各个特定任务的特征和初步预测,并使用真值监督训练;

  • InvPT Transformer decoder:最后,每个任务的特定特征和初步预测组合为一个序列,输入至InvPT Transformer decoder中,以学习在全局空间和任务上下文中生成细化的特定任务特征,细化后的特征进一步生成最终的预测结果。

前两点比较好理解,下面着重讲解InvPT Transformer Decoder。

InvPT Transformer Decoder via UP-Transformer Block

当空间分辨率较大时,全局自注意力的计算量就会十分恐怖,因此很多视觉Transformer模型都会大幅降低特征图的分辨率[14,46,44],并输出低空间分辨率的特征。然而特征图的分辨率越大,模型保存的局部细节就会越多,因此分辨率的大小是密集预测问题的一大关键因素。另一点是,不同尺度的特征图可以对不同层次的视觉信息进行建模[42,50],因此对多个任务在多个尺度上互相学习是有益的。出于以上动机,本文设计了一个逐步扩大分辨率的Transformer Decoder,称之为InvPT decoder,其由高效的UP-Transformer 模块、跨尺度自注意力信息传递和多尺度编码器模块组成。

Main Structure:UP-Transformer block的结构如下图所示。InvPT解码器包含三个阶段,每个阶段都是设计的UP-Transformer模块,用来计算不同空间分辨率下的self-attention并更新特征图。InvPT解码器的第一阶段(即阶段0)在 InvPT编码器的输出分辨率(即 H0 × W0)下学习跨任务自注意力,而接下来的两个阶段逐次恢复特征图的空间分辨率,并在更高的分辨率下计算跨任务的自注意力。后两个阶段(即阶段1和阶段2)使用本文提出的 UP-Transformer模块以更高的分辨率细化特征图,并实现跨尺度自注意力的传播,以及来自InvPT Transformer encoder的多尺度特征聚合。

ECCV2022 | 多任务SOTA模型!分割/深度/边界/显著图四项任务_第3张图片

Task-Specific Reshaping and Upsampling:Transformer 的计算模块通常对2D的feature-token序列进行操作,特征度的空间结构被分解,而空间结构对密集任务而言至关重要,基于对空间结构的考量,直接对特征序列进行上采样并非易事。另一个问题是InvPT解码器的输入特征包含多个不同的任务特定特征,所以需要对每个任务分别执行特征上采样和细化,以避免其他任务破坏当前任务的特征。为了解决上述问题,本文为InvPT解码器设计了一个任务特定的reshaping和upsampling模块,即Reshape&UP模块,如上图(b)和下图所示。Reshape&UP模块对每个任务的特征进行单独操作,双线性插值后分辨率扩大两倍,进一步经过Conv-BN-Relu等操作进行特征融合和通道降维,最后再拼接各个任务的特征。

ECCV2022 | 多任务SOTA模型!分割/深度/边界/显著图四项任务_第4张图片

Multi-task UP-Transformer Block:多任务UP-Transformer模块如上图所示,在阶段1和阶段2中使用,并学习逐层增加多任务特征的空间分辨率,并进行特征交互和以全局方式细化所有任务的特征。由于该模块在上采样后的特征图上计算全局自注意力,内存占用会非常大,因此本文首先减小了Q/K/V矩阵的大小,以进行自注意力计算[44,46]。

Cross-Scale Self-Attention Message Passing:为了使 InvPT 解码器能够更有效地对不同尺度的跨任务交互进行建模,本文通过如下方式将上一个阶段的信息传递至当前阶段。

edbbf452c8860c657b4754c60681b0fb.png

得到当前阶段的注意力图后,再通过Reshape&UP操作进行细化和上采样,进而得到最终的多任务特征,过程如下所示:

43c42b96af1986f2a54c1e8ea68092bd.png

Efficient Multi-Scale Encoder Feature Aggregation:对于密集场景理解,一些基本任务(例如边界检测)需要较低级别的视觉特征。但是在Transformer 中有效地使用多尺度特征是很棘手的,因为Transformer在图像分辨率上具有二次计算复杂度,通常只在小分辨率特征图上操作。逐渐增加特征图的大小并结合多尺度特征对GPU内存来说非常具有挑战性。因此,本文设计了一种高效且有效的多尺度编码特征聚合(EFA)策略。结构如上图所示。

3实验结果

实验结果和可视化如下所示,相比于基线,InvPT在多个任务上均有明显的提升,NYUD数据集上整体提升2.59%,在PASCAL上整体提升1.76%。

ECCV2022 | 多任务SOTA模型!分割/深度/边界/显著图四项任务_第5张图片

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D感知、多传感器融合、SLAM、高精地图、规划控制、AI模型部署落地等方向;

加入我们:自动驾驶之心技术交流群汇总!

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D感知、多传感器融合、目标跟踪)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

ECCV2022 | 多任务SOTA模型!分割/深度/边界/显著图四项任务_第6张图片

你可能感兴趣的:(python,计算机视觉,机器学习,人工智能,深度学习)