超越自注意力:用于医学图像分割的可变形大核注意力

文章目录

  • 摘要
  • 1、简介
  • 2、方法
    • 2.1、大核注意力(Large Kernel Attention)
    • 2.2、可变形大核注意力
    • 2.3、2D D-LKA网络
  • 3、实验
    • 3.1、实验装置
    • 3.2、数据集
    • 3.3、定量和定性结果
      • 3.3.1、2D结果
      • 3.3.2、3D结果
    • 3.4、消融实验研究
  • 4、结论

摘要

医学图像分割在采用transformer模型方面取得了显着的改进,这些模型在掌握深远上下文和全局上下文信息方面表现出色。然而,这些模型的计算需求不断增加,与token数量的平方成正比,限制了它们的深度和分辨率能力。当前大多数方法都是将D体积图像数据处理为逐层(称为伪3D),这会丢失关键的层间信息,从而降低模型的总体性能。为了解决这些挑战,我们引入了可变形大核注意力(D-LKA Attention)的概念,这是一种采用大卷积核的简化注意力机制,用于充分理解体积上下文。该机制在类似于自注意力的感受野内运行,同时避免了计算开销。此外,我们提出的注意力机制得益于可变形卷积,可以灵活地扭曲采样网格,使模型能够适当地适应不同的数据模式。我们设计了D-LKA Attention的2D和3D版本,其中后者在跨深度数据理解方面表现出色。这些组件共同构成了我们新的层次化Vision Transformer架构,即D-LKA Net。在流行医学分割数据集(Synapse、NIH Pancreas和Skin lesion)上对模型进行评估证明了其卓越的性能。我们的代码实现在https://github.com/mindflow-institue/deformableLKA上公开可用。

1、简介

医学图像分割在计算机辅助诊断中起着至关重要的作用,它可以帮助医学专业人员分析复杂的医学图像。这个过程不仅减少了手动任务的繁琐程度和对医学专业知识的依赖,还能实现更快更准确的诊断。自动分割提供了更快更准确的诊断结果的可能性,从而促进了适当的治疗策略的实施,并使得图像引导手术程序得以实现。因此,开发快速且精确的分割算法的必要性成为推动这一研究的重要力量。

自2010年代中期以来,卷积神经网络(CNNs)已成为许多计算机视觉应用的首选技术。它们能够自动从原始数据中提取复杂的特征表示,而不需要手动特征工程,这在医学图像分析领域引起了极大的兴趣。已经开发了许多成功的CNN架构,如U-Net [48]、全卷积网络[44]、DeepLab [16]或SegCaps(分割胶囊) [38]。这些架构在语义分割任务中取得了巨大的成功,并且优于以前的最先进方法[3, 35, 36]。

在计算机视觉研究中,不同尺度上识别物体的问题是一个关键问题[34,41]。在CNN中,可检测物体的大小与相应网络层的感受野维度密切相关。如果一个物体超出了感受野的边界,可能会导致欠分割的结果。相反,如果使用比物体实际大小大得多的感受野,则可能会限制识别,因为背景信息可能会对预测产生不适当的影响[27]。

解决这个问题的一个有希望的方法是并行使用具有不同大小的多核,类似于Inception Block的机制[53]。然而,在实践中,由于参数和计算需求的指数级增加,增加核的大小以适应更大的物体是有限的[27]。因此,已经出现了各种策略来捕获多尺度上下文信息,包括不同尺度的金字塔池化技术[28]和膨胀卷积[63]。

语义分割是一种任务,涉及根据预先定义的标签集为图像中的每个像素预测语义类别。这个任务需要提取高级特征,同时保留初始的空间分辨率[42, 46]。CNN非常适合捕获局部细节和低级信息,但代价是忽略了全局上下文。在处理全局信息方面的这一不足已经成为了视觉transformer(ViT)架构的一个重点,该架构在包括语义分割在内的多个计算机视觉任务中取得了卓越的成功。

ViT的基石是注意力机制,该机制促进了整个输入序列的信息聚合。这种能力使网络能够包含CNN有限的感受野大小之外的长程上下文线索[24, 52]。然而,这种策略通常会限制ViT有效建模局部信息的能力[9]。这种限制可能妨碍它们检测局部纹理的能力,这对于各种诊断和预后任务来说是至关重要的。ViT模型处理图像的特定方式可能导致缺乏局部表示。ViT模型将图像分为一系列补丁并使用自注意力机制建模其依赖关系。这种方法可能不如CNN模型在感受野内提取局部特征时使用的卷积运算有效。近年来,已经开发了创新的方法来解决Transformer模型中局部纹理表示不足的问题。一种这样的方法涉及通过互补方法集成CNN和ViT特征,以结合它们的优点并缓解任何局部表示的不足之处[15]。TransUNet是这种方法的早期示例,将Transformer层集成到CNN瓶颈中以同时建模局部和全局依赖关系。HiFormer提出了一种解决方案,将Swin Transformer模块和基于CNN的编码器结合生成两个多尺度特征表示,并通过Double-Level Fusion模块进行整合。UNETR采用基于Transformer的编码器和CNN解码器进行3D医学图像分割。CoTr和TransBTS将CNN编码器和解码器与Transformer联系起来,以增强低分辨率阶段的分割性能。

另一种增强局部特征表示的策略是重新设计纯Transformer模型中的自注意力机制。在这方面,Swin-Unet [13]将具有线性计算复杂性的Swin Transformer [43]块集成到U形结构中作为多尺度主干网络。MISSFoformer [32]通过在输入块上引入非可逆的下采样操作,采用Efficient Transformer [60]解决视觉转换器的参数问题。D-Former [59]引入了一个基于纯transformer的管道,其特点是双注意力模块,以捕获精细的局部注意力和与不同单位之间的交互。然而,仍然存在某些特定的限制。其中包括计算效率低下,如在TransUNet模型中证明的那样,对CNN主干网络的严重依赖,如在HiFormer中观察到的那样,以及缺乏对多尺度信息的考虑。此外,当前的分割架构通常采用逐层方法处理3D输入体素,无意中忽略了相邻切片之间的潜在相关性。这种疏忽限制了体积信息的全面使用,从而损害了定位准确性和上下文集成。此外,必须认识到医学领域中的病变经常在其形状上表现出形变。因此,用于医学图像分析的任何学习算法都必须具备捕获和理解这些形变的能力。同时,该算法应保持计算效率以促进3D体素数据的处理。

根据上文,以下是对“我们的贡献”的总结:

为了解决上述挑战,我们提出了一个名为DeformableLKA模块的解决方案(❶),该模块是我们网络设计中的基本构建块。该模块被明确设计用于有效地处理上下文信息,同时保留局部描述符,这种平衡增强了我们的架构在实现精确语义分割方面的能力。值得注意的是,我们的模型引入了基于数据的动态自适应感受野,与传统的卷积操作中的固定滤波器掩码不同。这种自适应方法使我们能够克服与静态方法相关的固有限制。这种创新方法扩展到了D-LKA Net架构的2D和3D版本的开发(❷)。对于3D模型,D-LKA机制被定制以适应3D上下文,从而能够无缝地交换不同体素切片之间的信息(❸)。最后,我们的贡献进一步由其计算效率所强调。我们通过仅依靠D-LKA概念的设计实现了这一点,从而在各种分割基准测试中表现出卓越的性能,确立了我们的方法作为新的最佳方法。

2、方法

在本节中,我们首先概述这种方法。首先,重新审视了Guo等人提出的大核注意力(LKA)的概念。介绍了对可变形LKA模块的创新探索。在此基础上,为分割任务引入了2D和3D网络架构。

2.1、大核注意力(Large Kernel Attention)

大核卷积提供了与自注意力机制类似的感受野。通过使用深度卷积、深度膨胀卷积和1x1卷积,可以以更少的参数和计算构建大核卷积。为构建一个 H × W H \times W H×W维输入和C个通道的 K × K K \times K K×K核,深度卷积和深度膨胀卷积的核大小计算公式为:

D W = ( 2 d − 1 ) × ( 2 d − 1 ) , D W=(2 d-1) \times(2 d-1), DW=(2d1)×(2d1),
D W − D = ⌈ K d ⌉ × ⌈ K d ⌉ , D W-D=\left\lceil\frac{K}{d}\right\rceil \times\left\lceil\frac{K}{d}\right\rceil, DWD=dK×dK,

其中核大小为K,膨胀率为d。参数数量P(K,d)和浮点运算次数F(K,d)的计算公式为:
P ( K , d ) = C ( ⌈ K d ⌉ 2 + ( 2 d − 1 ) 2 + 3 + C ) P(K, d)=C\left(\left\lceil\frac{K}{d}\right\rceil^{2}+(2 d-1)^{2}+3+C\right) P(K,d)=C(dK2+(2d1)2+3+C)
F ( K , d ) = P ( K , d ) × H × W . F(K, d)=P(K, d) \times H \times W . F(K,d)=P(K,d)×H×W.

FLOPs的数量随着输入图像的大小线性增长。参数的数量随着通道数量和内核大小的二次增长。然而,由于两者通常都很小,它们不是制约因素。

为了最小化固定核大小K的参数数量,可以将方程3对膨胀率d的导数设置为零:
d d d ^ P ( K , d ^ ) = ! 0 = C ⋅ ( 8 d ^ + 2 K 2 d ^ 3 − 4 ) . \frac{d}{d \hat{d}} P(K, \hat{d}) \stackrel{!}{=} 0=C \cdot\left(8 \hat{d}+\frac{2 K^{2}}{\hat{d}^{3}}-4\right) . dd^dP(K,d^)=!0=C(8d^+d^32K24).

例如,当核大小为K=21时,得到d≈3.37。将公式扩展到三维情况是直接明了的。对于大小为H×W×D的输入和通道数为C,那么参数数量 P 3 d ( K , d ) P_{3d}(K,d) P3d(K,d)和FLOPs F 3 d ( K , d ) F_{3d}(K,d) F3d(K,d)的方程为:

P 3 d ( K , d ) = C ( ⌈ K d ⌉ 3 + ( 2 d − 1 ) 3 + 3 + C ) , P_{3d}(K,d)=C\left(\left\lceil\frac{K}{d}\right\rceil^{3}+(2d-1)^{3}+3+C\right), P3d(K,d)=C(dK3+(2d1)3+3+C),
F 3 d ( K , d ) = P 3 d ( K , d ) × H × W × D , F_{3d}(K,d)=P_{3d}(K,d) \times H \times W \times D, F3d(K,d)=P3d(K,d)×H×W×D,
其中核大小为K,膨胀率为d。

2.2、可变形大核注意力

利用可变形卷积将大型核用于医学图像分割的概念进行了扩展 [20]。可变形卷积允许根据特征图调整采样网格,进行自由变形。通过额外添加卷积层来学习特征图上的变形,生成偏移场。基于特征本身学习变形可以创建自适应卷积核。这种灵活的核形状可以改善对病变或器官变形的表示,从而增强目标边界的清晰度。计算偏移的卷积层遵循其相应卷积层的核大小和膨胀率。双线性插值用于计算落在图像网格之外的偏移量处的像素值。如图2所示,D-LKA模块可以表示为:

 Attention  = Conv ⁡ 1 × 1 ( D D W − D − C o n v ( D D W − Conv ⁡ ( F ′ ) ) ) ,  Output  = Conv ⁡ 1 × 1 (  Attention  ⊗ F ′ ) + F , \begin{aligned} \text { Attention } & =\operatorname{Conv} 1 \times 1\left(\mathrm{DDW}-\mathrm{D}-\mathrm{Conv}\left(\mathrm{DDW}-\operatorname{Conv}\left(\mathrm{F}^{\prime}\right)\right)\right), \\ \text { Output } & =\operatorname{Conv} 1 \times 1\left(\text { Attention } \otimes \mathrm{F}^{\prime}\right)+\mathrm{F}, \end{aligned}  Attention  Output =Conv1×1(DDWDConv(DDWConv(F))),=Conv1×1( Attention F)+F,

其中输入特征表示为 F ∈ R C × H × W F \in \mathbb{R}^{C \times H \times W} FRC×H×W,通过一系列卷积和非线性激活函数得到特征图 F ′ F^{\prime} F。注意力组件 Attention ∈ R C × H × W \text{Attention} \in \mathbb{R}^{C \times H \times W} AttentionRC×H×W 是一种注意力图,每个值表示对应特征的相对重要性。这里提出的 LKA 方法与传统注意力方法不同,不需要额外的归一化函数,如 sigmoid 或 Softmax。根据参考文献 [56],这些归一化函数往往会忽略高频信息,从而降低基于自注意力的方法的性能。

在该方法的2D版本中,卷积层被可变形卷积取代,因为可变形卷积提高了捕捉具有不规则形状和大小的物体的能力。这样的对象在医学图像数据中常见,使这种增强特别重要。

然而,将可变形LKA的概念扩展到三维领域面临一定的挑战。主要约束来自于偏移生成所需的额外卷积层。与二维情况相比,由于输入和输出通道的性质,该层不能以深度优先的方式执行。在三维情况下,输入通道对应于特征,而输出通道扩展为3·k×k×k,其中核大小为k。大核的复杂性导致通道数量沿着第三维度增加,从而导致参数和FLOPs的显着增加。因此,为三维情况实现了另一种替代方法。在现有的LKA框架中引入了一个单独的可变形卷积层,该层位于深度卷积之后。这种战略性设计改编旨在减轻扩展到三维领域所带来的挑战。

2.3、2D D-LKA网络

2D网络的架构如图1所示。第一种变体使用MaxViT[54]作为编码器组件,以有效地进行特征提取,而第二种变体包含可变形的LKA层,以进行更精细、更优越的分割。
超越自注意力:用于医学图像分割的可变形大核注意力_第1张图片

在更正式的描述中,编码器生成四种层次结构的输出表示。首先,一个卷积茎将输入图像的维度减小到 H 4 × W 4 × C \frac{H}{4} \times \frac{W}{4} \times C 4H×4W×C。随后,通过四个阶段的 MaxViT 块进行特征提取,每个阶段后都跟随下采样层。随着处理流程进入解码器,实现了四个阶段的 D-LKA 层,每个阶段包含两个 D-LKA 块。接着应用补丁扩张层以实现分辨率的上采样并减小通道维度。最后,一个线性层负责生成最终的输出。
超越自注意力:用于医学图像分割的可变形大核注意力_第2张图片
2D D-LKA 块的结构包括层归一化(LayerNorm)、可变形 LKA 和一个多层感知器(MLP)。残差连接的集成确保了有效的特征传播,甚至跨越了更深层次的节点。这种排列可以在数学上表示为:

x 1 = D − L K A − Attn ⁡ ( LN ⁡ ( x i n ) ) + x i n , x_{1}=D-L K A-\operatorname{Attn}\left(\operatorname{LN}\left(x_{i n}\right)\right)+x_{i n}, x1=DLKAAttn(LN(xin))+xin,
x out  = M L P ( L N ( x 1 ) ) + x 1 , x_{\text {out }}=M L P\left(L N\left(x_{1}\right)\right)+x_{1}, xout =MLP(LN(x1))+x1,
M L P = Conv ⁡ 1 ( G e L U ( Conv ⁡ d ( Conv ⁡ 1 ( x ) ) ) ) , M L P=\operatorname{Conv}_{1}\left(G e L U\left(\operatorname{Conv}_{d}\left(\operatorname{Conv}_{1}(x)\right)\right)\right), MLP=Conv1(GeLU(Convd(Conv1(x)))),

具有输入特征 x i n x_{i n} xin、层归一化 L N L N LN、可变形 LKA 注意力的 D-L K A -Attn、深度卷积 C o n v C_{o n v} Conv、线性层 C o n v 1 C o n v_{1} Conv1 和 GeLU 激活函数 G e L U G e L U GeLU

$$ 2.4、3D D-LKA Net
3D网络架构,如图1所示,采用层次化的编码器-解码器设计结构。首先,一个补丁嵌入层将输入图像的维度从 H × W × D H \times W \times D H×W×D 减小到 ( H 4 × W 4 × D 2 ) \left(\frac{H}{4} \times \frac{W}{4} \times \frac{D}{2}\right) (4H×4W×2D)。在编码器中,采用三个D-LKA阶段序列,每个阶段包含三个D-LKA块。每个阶段之后,下采样步骤将空间分辨率降低一半,同时将通道数量增加一倍。核心瓶颈部分包括另一组两个D-LKA块。解码器结构与编码器对称。为了在减小通道数量的同时将特征分辨率加倍,利用了转置卷积。每个解码器阶段采用三个D-LKA块以增强长距离特征依赖性。最终的分割输出由 3 × 3 × 3 3 \times 3 \times 3 3×3×3 卷积层产生,接着是 1 × 1 × 1 1 \times 1 \times 1 1×1×1 卷积层以匹配特定类别的通道需求。为了在输入图像和分割输出之间建立直接连接,通过卷积形成了跳级连接。其他跳级连接基于简单加法执行特征的其他阶段的融合。最终的分割图由 3 × 3 × 3 3 \times 3 \times 3 3×3×3 1 × 1 × 1 1 \times 1 \times 1 1×1×1 卷积层组合产生。

3D D-LKA块包括层归一化,接着是D-LKA注意力,并应用了残差连接。接下来的部分包含 3 × 3 × 3 3 \times 3 \times 3 3×3×3 卷积层,接着是 1 × 1 × 1 1 \times 1 \times 1 1×1×1 卷积层,这两个部分都伴随着残差连接。整个过程可以概括如下:
x 1 = D Attn ⁡ ( L N ( x i n ) ) + x i n , x_{1}=D \operatorname{Attn}\left(L N\left(x_{i n}\right)\right)+x_{i n}, x1=DAttn(LN(xin))+xin,
x out  = Conv ⁡ 1 ( Conv ⁡ 3 ( x 1 ) ) + x 1 ,  x_{\text {out }}=\operatorname{Conv}_{1}\left(\operatorname{Conv}_{3}\left(x_{1}\right)\right)+x_{1} \text {, } xout =Conv1(Conv3(x1))+x1

具有输入特征 x i n x_{i n} xin、层归一化 L N L N LN、可变形 LKA DAttn、卷积层 Conv v_{1} 和输出特征 x out x_{\text {out}} xout。Conv 3指的是具有两个卷积层和激活函数的前馈网络。

3、实验

3.1、实验装置

我们使用PyTorch框架实现了2D和3D模型,并在单个RTX 3090 GPU上进行训练。对于2D方法,使用20的批量大小,以及随机梯度下降(SGD),基础学习率为0.05,动量为0.9,权重衰减为0.0001。训练过程由400个epoch组成,采用交叉熵和Dice损失的组合,如下所示:

L total  = 0.6 ⋅ L dice  + 0.4 ⋅ L cee  . \mathcal{L}_{\text {total }}=0.6 \cdot \mathcal{L}_{\text {dice }}+0.4 \cdot \mathcal{L}_{\text {cee }} . Ltotal =0.6Ldice +0.4Lcee .

与[15]一致,采用了相同的数据增强技术。对于3D模型,选择了批量大小为2,并使用了学习率为0.01的随机梯度下降和权重衰减为3e-5。输入图像为大小为128×128×64的补丁形式。训练过程包括1000个训练周期,每个周期使用250个补丁。采用了与nnFormer [64]和UNETR++ [51]一致的数据增强技术。

3.2、数据集

Synapse多器官分割:首先,我们使用公认的Synapse多器官分割数据集[14]评估我们方法的性能。该数据集包含30个病例,共有3779个轴向腹部临床CT图像。每个CT体素包含85到198个切片,每个切片的尺寸为512×512像素。体素的空间分辨率范围为([0.54~0.54]×[0.98~0.98]×[2.5~5.0])mm3。我们的评估遵循[15,51]中提出的2D和3D版本设置。

皮肤病变分割:我们的全面实验还扩展到了皮肤病变分割数据集上。具体来说,我们利用了ISIC 2017数据集[19],该数据集包含2000张用于训练的皮肤镜图像,150张用于验证,600张用于测试。此外,我们采用了先前文献[1, 2, 5, 21]中描述的划分方案,用于ISIC 2018数据集[18]。另外,PH2数据集[45]被用作面向分割和分类任务的皮肤镜图像库。该数据集包含200张皮肤镜图像,其中160张为痣,40张为黑色素瘤。

NIH胰腺分割:公开可用的NIH胰腺数据集由82个增强3D腹部CT体组成,每个体都有手动注释[49]。在我们的配置中,我们使用62个样本进行训练,剩余样本用于测试。

3.3、定量和定性结果

3.3.1、2D结果

Synapse数据集:在表1中,我们对其他SOTA技术与我们提出的方法相比取得的领先性能进行了综合比较。
超越自注意力:用于医学图像分割的可变形大核注意力_第3张图片

根据Dice相似系数(DSC)的结果显示,D-LKA Net在先前已确立的最佳方法(SOTA)中表现出优越性。具体而言,它比ScaleFormer [31]高出1.41%,比DAEFormer [4]高出1.64%,与其他方法相比,优势更加明显。值得注意的是,当涉及到特定解剖区域(如右肾、左肾、胃和胰腺)的分割时,我们的方法取得了显著改善。特别是胰腺的分割结果有了显著提高,与第二优方法相比提高了2.04%。腹部较小的器官(如胆囊或胰腺)的分割在过去一直是现有最佳方法的挑战之一,这一显著的性能改进代表了在实现更精确分割结果方面迈出了重要的一步。图3展示了不同方法的定性比较。与DAEFormer [4]相比,我们的方法减少了胃的误分类。虽然Unet [48]和Swin-Unet [12]有时将远离组织的部分分类为肝脏、胆囊或胃,但我们的方法减少了误分类并更好地表示了器官的形状。
超越自注意力:用于医学图像分割的可变形大核注意力_第4张图片

皮肤病变分割结果:表2详细比较了皮肤病变分割基准,包括ISIC 2017、ISIC 2018和PH2,与领先方法的比较结果。值得注意的是,我们的D-LKA Net在各种评估指标上始终优于竞争对手。在不同数据集上观察到的一致优势突出了D-LKA Net的稳健泛化能力。
超越自注意力:用于医学图像分割的可变形大核注意力_第5张图片

图4展示了结果的定性比较。与基线方法相比,D-LKA Net更好地遵循了病变的复杂轮廓。与Swin-UNet和HiFormer-B相比,后者倾向于对某些区域进行过度或不足的分割,而我们的方法实现了更准确的分割。

3.3.2、3D结果

Synapse数据集:我们将自己的3D方法与之前的SOTA方法在Synapse数据集上进行比较。结果如表3所示。与之前的SOTA方法UNET++ [51]相比,我们在DSC上取得了0.27%的改进。与nnFormer [64]相比,我们实现了0.92%的改进。对于HD95度量,D-LKA Net达到了第二好的结果。与UNET++相比,我们在脾脏、左肾和主动脉上观察到小幅的性能提升。在右肾和小器官(胆囊和胰腺)上报告了显着的增加。这些小器官的分割性能的提高尤其重要。
超越自注意力:用于医学图像分割的可变形大核注意力_第6张图片

超越自注意力:用于医学图像分割的可变形大核注意力_第7张图片

就参数而言,我们的参数数量最少,只有42.35M,但仍取得了出色的分割性能。FLOPs的数量为66.96G,是第二低的。只有UNET++的FLOPs较少。与Swin-UNETR和nnFormer等当前最佳方法相比,我们只需要约17%和31%的计算量,同时实现了更好的性能。
超越自注意力:用于医学图像分割的可变形大核注意力_第8张图片

胰腺数据集:NIH胰腺数据集的结果如表4所示。我们的方法在所有四个指标上都取得了最佳的性能。与最接近的竞争对手UNET++相比,DSC增加了0.63%,Jaccard增加了0.82%,HD95下降了1.04,ASD下降了0.26。D-LKA Net的参数数量也最低,只有62.07M。
超越自注意力:用于医学图像分割的可变形大核注意力_第9张图片
图6显示了不同方法的定性比较。UNET无法将胰腺作为单个对象进行分割。UNET++的分割结果中有较小的伪影。我们的方法比其他方法更好地遵循了器官的高度不规则形状。

3.4、消融实验研究

鲁棒性。为了增强我们的评估鲁棒性并分析统计显著性,我们在Synapse 2D版本上对每种方法进行了5次训练运行。这种做法不仅确保了更加全面的评估,而且使我们能够可视化性能的变化(请参阅补充文件以获得可视化)。在我们的评估中,我们观察到主动脉、胆囊、左肾和右肾、肝脏、胰腺和胃的性能稳定增加,其中位性能高于其他SOTA方法。只有脾脏的分割性能略差。此外,胆囊、胰腺和胃的性能得到了显著的提高。
超越自注意力:用于医学图像分割的可变形大核注意力_第10张图片

可变形LKA影响。为了继续消融实验以确定D-LKA的有效性,我们构建了一个只使用3D LKA而没有可变形层的网络,以及另一个使用3D LKA和一个额外的卷积层来代替可变形层的版本。该分析的结果如表5所示。引入额外的3D卷积层导致与3D LKA基线相比,DSC的性能显著提高了0.99%。然而,这种修改也增加了网络中的参数数量。用可变形卷积层替换3D卷积层可以进一步提高性能,DSC增加了0.63%。与之前的修改类似,这种改变也会向网络中引入更多的参数和FLOPs。由于网络大小相对较小,这些指标的增加是可以接受的。
超越自注意力:用于医学图像分割的可变形大核注意力_第11张图片

跳层连接。最后,我们对跳层连接在分割过程中的影响进行评估,结果如表6所示。我们移除了所有的跳层连接,并从最高级别的跳层连接开始逐渐添加到网络中。结果表明,跳层连接对于获得最佳分割性能至关重要。此外,我们还强调了最高级别的跳层连接对于实现最佳分割结果至关重要,使DSC性能提高了0.42%。

4、结论

本文提出一种新的基于可变形大核注意力的分层混合视觉Transformer和CNN架构(D-LKA网络)。这种注意力机制使网络能够学习变形网格,以获取比传统注意力策略更多的相关信息。此外,大核注意力机制可以聚合类似自注意力的全局信息,以克服CNN机制的局部限制。提出了所提出网络的3D版本,其中包括跨切片特征提取,以获得更强的表示能力。所提出模型在几个公开的分割数据集上收到了SOTA结果。总的来说,我们相信所提出的D-LKA网络对于医学图像分割是一个鲁棒和强大的选择。

你可能感兴趣的:(深度学习,人工智能,计算机视觉,视觉检测,神经网络)