半监督语义分割_paper reading part2

目录

  • 03 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
    • 03.1 Introduction
    • 03.2 Method
    • 03.3 experiment
      • 03.3.1 Ablation studies 涉及模型尺寸,编码器和解码器设计。
      • 03.3.2 Comparison to state of the art methods on ADE20K and Cityscapes.
      • 03.3.3
      • 03.3.4
      • 03.3.5
      • 03.4 Conclusion
  • 04 Segment Anything
    • Ablation
  • 05 SegGPT: Segmenting Everything In Context
    • 05.2 experiment
      • Comparison with Specialist Methods
      • Ablation Study
  • 06 Fully Convolutional Adaptation Networks for Semantic Segmentation
    • Experiments
    • Conclution
  • 07 Dense Learning based Semi-Supervised Object Detection
    • Experiments
      • Ablation Studies
    • Conclusion

03 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

在这里插入图片描述
Time:2021.05
半监督语义分割_paper reading part2_第1张图片
我们提出了SegFormer,一个简单,高效而强大的语义分割框架,它将transformer与轻量级多层感知器(MLP)解码器统一起来。SegFormer有两个吸引人的特点:1)SegFormer包括一个新颖的层次结构变压器编码器,输出多尺度特征。它不需要位置编码,从而避免了位置编码的插值,从而导致测试分辨率与训练分辨率不同时性能下降。2) SegFormer避免了复杂的解码器。所提出的MLP解码器聚合来自不同层的信息,从而结合局部注意力和全局注意力来呈现强大的表示。我们表明,这种简单和轻量级的设计是变压器上有效分割的关键。我们扩大了我们的方法,获得了从SegFormer-B0到SegFormer-B5的一系列模型,达到了比以前的模型更好的性能和效率。例如,SegFormer-B4在ADE20K上采用64M参数实现了50.3%的mIoU,比之前的最佳方法缩小了5倍,提高了2.2%。我们的最佳模型SegFormer-B5在cityscape验证集上达到84.0% mIoU,并在cityscape - c上表现出出色的零镜头鲁棒性。代码将在github.com/NVlabs/SegFormer发布。

03.1 Introduction

半监督语义分割_paper reading part2_第2张图片

03.2 Method

半监督语义分割_paper reading part2_第3张图片
没有手工制作和计算要求高的模块。如图2所示,SegFormer由两个主要模块组成:(1)一个分层Transformer编码器,用于生成高分辨率粗特征和低分辨率细特征;(2)一个轻量级的All-MLP解码器来融合这些多层次的特征,以产生最终的语义分割掩码。

半监督语义分割_paper reading part2_第4张图片
Effective Receptive Field Analysis.
在语义分割中,保持较大的接受域以包含上下文信息一直是一个核心问题[5,19,20]。在这里,我们使用有效接受域(ERF)[70]作为工具箱来可视化和解释为什么我们的MLP解码器设计在变形金刚上如此有效。在图3中,我们可视化了DeepLabv3+和SegFormer的四个编码器阶段和解码器头的erf。我们可以观察到以下几点:

  • DeepLabv3+的ERF即使在最深的阶段-4也相对较小。
  • SegFormer的编码器自然地产生局部注意,这些注意类似于较低阶段的卷积,同时能够输出高度非局部注意,有效地捕获阶段4的上下文。
  • 如图3的放大补丁所示,MLP头部(蓝框)的ERF与阶段4(红框)不同,除了非局部注意外,其局部注意明显更强。

03.3 experiment

03.3.1 Ablation studies 涉及模型尺寸,编码器和解码器设计。

半监督语义分割_paper reading part2_第5张图片
模型大小的影响我们首先分析了增加编码器尺寸对性能和模型效率的影响。图1显示了ADE20K的性能与模型效率作为编码器尺寸的函数,表1a总结了三个数据集的结果。这里首先要观察的是解码器与编码器的大小。如图所示,对于轻量级模型,解码器只有0.4M参数。对于MiT-B5编码器,解码器只需要模型中参数总数的4%。在性能方面,我们可以观察到,总的来说,增加编码器的大小会在所有数据集上产生一致的改进。我们的轻量级模型SegFormer-BO紧凑高效,同时保持了具有竞争力的性能,这表明我们的方法非常方便于实时应用。另一方面,我们最大的模型SegFormer-B5在所有三个数据集上都达到了最先进的结果,显示了我们Transformer编码器的潜力。

C,影响MLP解码器的信道维数我们现在分析信道维度C在MLP解码器中的影响,参见第3.2节。在表1b中,我们展示了性能、flop和参数作为这个维度的函数。我们可以观察到,设置C = 256提供了非常有竞争力的性能和计算成本。性能随着C的增加而增加;然而,这会导致更大且效率更低的模型。有趣的是,当信道维度大于768时,这种性能趋于稳定。鉴于这些结果,我们选择C = 256的实时模型SegFormer-B0, B1和C =768的其余部分。

表1c显示了本实验的结果。如图所示,对于给定的分辨率,我们使用Mix-FFN的方法明显优于使用位置编码。此外,我们的方法对测试分辨率的差异不太敏感:当使用具有较低分辨率的位置编码时,精度下降3.3%。相比之下,当我们使用所提出的Mix-FFN时,性能下降仅为0.7%。从这些结果中,我们可以得出结论,使用所提出的Mix-FFN比使用位置编码产生更好、更健壮的编码器。

有效的接受野评估。在第3.2节中,我们认为与其他CNN模型相比,我们的MLP解码器受益于变形金刚具有更大的有效接受域。为了量化这种效果,在这个实验中,我们比较了我们的mlp解码器与基于cnn的编码器(如Re

你可能感兴趣的:(vision,/,segmentation,深度学习,人工智能,计算机视觉)