SegNeXt---语义切分中卷积注意力设计的再思考

摘要

近年来,基于变压器的模型因其在空间信息编码中的自注意效率而占据了语义分割领域的主导地位。 本文证明卷积注意是一种比transformers中的自注意机制更有效的编码上下文信息的方法。 通过重新审视成功的分割模型所具有的特性,发现了导致分割模型性能提高的几个关键因素。 这促使我们设计一种新颖的卷积注意力网络,它使用廉价的卷积运算。基于CNN的语义分割模型Segnext,一种用于语义分割的简单卷积网络架构。

分割工作不同模型所具有的几个关键特性

(i)一个强大的骨干网作为编码器。 与以往的基于CNN的模型相比,基于变压器的模型的性能提高主要来自于更强大的骨干网。 (ii)多尺度信息交互。 与图像分类任务主要识别单个对象不同,语义分割是一个密集的预测任务,因此需要处理单个图像中不同大小的对象。 ㈢空间注意。 空间关注允许模型通过语义区域内区域的优先级来执行分割。 (iv)计算复杂度低。 这在处理来自遥感和城市场景的高分辨率图像时尤为关键。

SegNeXt

对于编码器中的每个块,我们更新了传统卷积块的设计,并利用多尺度卷积特征通过一个简单的元素相乘来唤起空间注意。 在空间信息编码中,我们发现这样一种简单的建立空间注意的方法比标准卷积和自我注意都更有效。 对于解码器,我们从不同阶段收集多层次特征,并使用Hamburger进一步提取全局上下文。 在此设置下,我们的方法可以获得从局部到全局的多尺度上下文,实现空间和信道维度的适应性,以及从低级到高级的信息聚合。

Convolutional Encoder

SegNeXt---语义切分中卷积注意力设计的再思考_第1张图片

 说明拟议的MSCA和MSCAN。 这里,d,k1×k2表示使用k1×k2的核大小的深度卷积(D)。 利用卷积提取多尺度特征,并将其作为注意力权重对MSCA的输入进行重新加权。

Method

采用金字塔结构的编码器遵循了大多数以前的工作。 对于编码器的构造模块,我们采用了与VIT相似的结构,但不同的是我们没有使用自注意机制,而是设计了一个新的多尺度卷积注意(MSCA)模块。

MSCA包括三个部分:聚合局部信息的深度卷积,捕捉多尺度上下文的多分支深度条卷积和建立不同信道间关系的1×1卷积。

SegNeXt---语义切分中卷积注意力设计的再思考_第2张图片

 其中f表示输入特性。 ATT和OUT分别是关注图和输出。 ⊗ 是按元素的矩阵乘法运算。 DW-Conv表示深度卷积,Scalei, i ∈ {0, 1, 2, 3}表示图的第i分支 . Scale0是标识连接。

我们设计了四种不同尺寸的编码器模型,分别命名为MSCAN-T、MSCAN-S、MSCAN-B和MSCAN-L。 相应的整体分割模型分别称为Segnext-T、Segnext-S、Segnext-B、Segnext-L。

SegNeXt---语义切分中卷积注意力设计的再思考_第3张图片

 'E.R.'表示前馈网络中的扩展比率。 'C'和'L'分别是通道和构建块的数量。 “解码器维度”表示解码器中的MLP维度。 “参数”是在ADE20K数据集上计算的。

Decoder

SegNeXt---语义切分中卷积注意力设计的再思考_第4张图片

第一种,在Segformer中采用,是一种纯粹基于MLP的结构。 第二种主要采用基于CNN的模型。 在这种结构中,编码器的输出直接用作到像ASPP、PSP和DANET这样的重型译码器头的输入。 最后一个是我们Segnext中采用的结构。 我们聚合了最后三个阶段的特征,并使用一个轻量级汉堡包来进一步建模全局上下文。 结合我们强大的卷积编码器,我们发现使用轻量级解码器可以提高性能计算效率。

Experiments

SegNeXt---语义切分中卷积注意力设计的再思考_第5张图片

不同注意机制在解码器中的表现

SegNeXt---语义切分中卷积注意力设计的再思考_第6张图片

 消融研究

SegNeXt---语义切分中卷积注意力设计的再思考_第7张图片

总结

本文分析了以往成功的分割模型,发现它们所具有的良好特性。 基于这些发现,提出了一个定制的卷积注意力模块MSCA和一个CNN风格的网络Segnext。 实验结果表明,Segnext比目前最先进的基于变压器的方法有很大的优势。 本文表明,当使用适当的设计时,基于CNN的方法仍然可以比基于变压器的方法执行得更好。 

你可能感兴趣的:(深度学习,计算机视觉)