SegNeXt: Rethinking Convolutional Attention Designfor Semantic Segmentation重新思考卷积注意力设计

论文地址:https://arxiv.org/pdf/2209.08575.pdf

代码地址:GitHub - Visual-Attention-Network/SegNeXt: Official Pytorch implementations for "SegNeXt: Rethinking Convolutional Attention Design for Semantic Segmentation" (NeurIPS 2022)

摘要:在当前深度学习语义分割中Transformer占据了主流的方向。作者发现卷积神经网络的注意力机制比Transformer更加高效,更加高效地编码上下文信息。通过对比之前提出的优秀的语义分割模型,作者发现了提升模型分割精度的几个关键因素(如下表所示)。通过以上的发现,作者提出的注意力卷积神经网络SegNext,在VOC数据集上mIOU可以达到0.906地精度,在COCO,ADE20K等数据集上都能够达到先进的分割水平。

动机

作者通过对比当前主流的语义分割算法发现,一个好的算法包含一下四个主要特点(如下表所示)

SegNeXt: Rethinking Convolutional Attention Designfor Semantic Segmentation重新思考卷积注意力设计_第1张图片

  1. 一个健壮的骨干网络结构作为编码层。与以往基于CNN的模型相比,基于Transformer的模型的性能提升主要来自于更强大的骨干网络。
  2. 多尺度信息交互。与图像分类算法识别单个目标不同,语义分割是一个密集预测算法,需要识别同一张图片中不同大小的多个目标。
  3. 空间注意力。空间注意力允许模型通过语义区域内的区域优先级进行分割(分割不同的目标拥有不同的分割权重)。
  4. 计算复杂度低。在处理高分辨率图像的时候低计算复杂度就显得尤为重要。

本论文作者的主要贡献有:

  1. 确定了一个好的语义分割模型应该具备的特征,并提出了一个新的网络架构(通过多尺度卷积特征来引起空间注意力)。
  2. 证明了一个简单的卷积神经网络可以比transformer更加快速和高效,特别是在处理图像细节。
  3. 算法在不同数据集上达到了最先进的水平。

网络结构

SegNeXt: Rethinking Convolutional Attention Designfor Semantic Segmentation重新思考卷积注意力设计_第2张图片

         上图所示,是论文中提出的网络结构,图a是整体的网络结构,删除了Transformer种self-attention层,使用了论文中提出的MSCA层来代替。图b是MSCA层详细的网络结构,输入特征先通过5×5的深度卷积,然后再使用尺寸为7,11和21的大卷积核提取多尺度特征,随后将特征进行通道融合,通过一个1×1的卷积恢复通道数,最后再与输入特征进行点乘操作输出最终的注意力结果。 

        该网络结构的核心就是通过不同尺度的大卷积核融合来实现多尺度网络特征,同时利用大卷积核注意力(LKA)机制来构建通道和空间注意力。

编码层

        编码层整体架构采用了是VIT的网络架构,如图a种MSCAN所示。并且采用了金字塔结构来提取多尺度特征。MSCA的详细介绍如下公式所示:

         F表示的是输入的特征图,DW表示图中5×5的深度卷积,Scale表示7,11,21三种尺度的大卷积核操作。Conv表示图中1×1的卷积操作。在多尺度大卷积核中采用的是7×1和1×7来代替7×7大卷积核的主要原因是:1. 减少计算量。2. 图片中可能出现带状的物体,如人,电线杆等。

        作者通过堆积不同数量的MSCAN来搭建不同的网络结构,论文中提出了4各不同深度的编码层网络结构,如下表所示:

SegNeXt: Rethinking Convolutional Attention Designfor Semantic Segmentation重新思考卷积注意力设计_第3张图片

 C表示通道数,L表示堆叠的数量。

解码层

        解码器的作用就是将编码器的特征进行解码上采样,最终得到分割的结果。论文中对比了三种不同的解码器网络结构。

SegNeXt: Rethinking Convolutional Attention Designfor Semantic Segmentation重新思考卷积注意力设计_第4张图片

        图a是Segformer中解码层网络结构,就是MLP多层感知机网络结构。图b是基于CNN的解码网络结构,编码器的输出直接用作重型解码器头(head网络结构)的输入。图c是论文中提出的解码层网络结构,聚合了最后三阶段的特征图(第一层的特征有太多的低级信息影响效果,同时第一层的特征图比较大会增加计算量,所以只是用了后面三个阶段的特征图进行融合),同时使用了轻量化的Hamburger网络结构来获取全局信息。

实验展示

SegNeXt: Rethinking Convolutional Attention Designfor Semantic Segmentation重新思考卷积注意力设计_第5张图片

 论文中作者在Imagenet上的结果展示,可以看出论文提出的网络结构可以达到先进的水平。

SegNeXt: Rethinking Convolutional Attention Designfor Semantic Segmentation重新思考卷积注意力设计_第6张图片

 SegNeXt: Rethinking Convolutional Attention Designfor Semantic Segmentation重新思考卷积注意力设计_第7张图片

 

你可能感兴趣的:(论文)