SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation

Meng-Hao Guo, Cheng-Ze Lu, Qibin Hou, Zheng-Ning Liu, Ming-Ming Cheng, Shi-Min Hu

NeurIPS 2022

Abstract

  我们提出了一个简单的卷积神经网络架构用于语义分割领域。由于Self-attention编码空间信息的高效性,近期Transformer- based模型主导了语义分割领域,但在本文中,我们发现并验证了,相对于Self-attention,卷积注意力是一种更为有效且高效的编码上下文信息的方法。通过重新检视那些成功的分割模型的特征,我们发现了几个提升分割模型性能的关键结构。这些发现引导我们去设计一个仅用轻量的卷积操作的卷积注意力模型。没有使用过多的技巧,我们在多个流行的benchmarks上(包括ADE20K,Cityscapes,COCO-Stuff,Pascal VOC,Pascal Context和iSAID),我们的SegNeXt模型显著提升了之前SOTA模型的性能。特别的,SegNeXt仅在使用1/10参数量的情况下,在PascalVOC2012测试集上取得了超过Efficient-L2 w/NAS- FPN的性能,达到了90.6%的mIoU。在相同或者更少计算量的情况下,平均而言,SegNeXt取得了2.0%的mIoU的提升。

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation_第1张图片

要解决的问题

  1. 找到几个可以使卷积网络在分割上也能媲美transformer的关键因素

Method

1. Convolutional Encoder

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation_第2张图片

image-20221018143705133

  1. 采用金字塔结构
  2. 整个编码器命名为MSCAN,其中MSCA模块如上图所示,值得注意的是多分支的条状卷积,作者的理由有两个:一是条状卷积相比网格状更加轻量,另一方,条状卷积对分割场景中的条状物体更友好,因此,带状卷积可以是网格状卷积的补充,有助于提取条状特征。
  3. 采用了batch normalization而不是layer normalization,作者在实验中发现bn比ln的效果更好

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation_第3张图片

2. Decoder

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation_第4张图片

  1. 论文采用的decoder 是c图,结合了a和b
  2. 与a不同的是,c只接受来自最后三个阶段的特征,作者认为stage1的特征是低级特征,包含了太多各种信息,会损害模型性能,而且带上stage1会带来较大的计算开销

Experiment

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation_第5张图片

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation_第6张图片

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation_第7张图片

SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation_第8张图片

总结

  1. 作者总结了那些成功的语义分割模型的特征:
    1. 大卷积核在语义分割中很重要,但它忽略了多尺度感受野的重要性
    2. 捕获多尺度特征很重要
    3. 图像中注意力机制一般分为空间注意和通道注意,建立空间和通道注意力很重要,但以往的工作忽略了多尺度特征融合的作用

你可能感兴趣的:(深度学习,人工智能)