w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel

w-net: Dual supervised medical image segmentation with
multi-dimensional self-attention and diversely-connected
multi-scale convolution

发表期刊:Neurocomputing(计算机科学2区)
发表时间:2022年

Abstract

尽管 U-Net 及其变体在医学图像分割任务中取得了一些巨大的成功,但它们对小物体的分割性能仍然不能令人满意。因此,在这项工作中,提出了一种新的深度模型 w-Net 来实现更准确的医学图像分割。 w-Net 的进步主要有三方面:首先,它在 U-Net 中加入了一个额外的扩展路径,以导入额外的监督信号,并通过双重监督获得更有效和鲁棒的图像分割。然后,进一步开发了一种多维自注意力机制,以突出显著特征并在空间和通道维度上连续抑制不相关的特征。最后,为了减少收缩路径和扩展路径的特征图之间的语义差异,我们进一步建议将不同连接的多尺度卷积块集成到跳跃连接中,其中几个多尺度卷积操作串联和并行连接。在三个腹部 CT 分割任务上的大量实验结果表明:(i)w-Net 在医学图像分割任务中大大优于最先进的图像分割方法; (ii) 提议的三项改进对于 w-Net 实现卓越性能都是有效且必不可少的; (iii) 所提出的多维自注意力(分别是不同连接的多尺度卷积)比用于医学图像分割的最先进的注意力机制(分别是多尺度解决方案)更有效。待本文正式接受后,代码将在线发布。

Introduction

随着人工智能的快速发展,基于深度学习的医学图像分析技术越来越多地应用于临床计算机辅助诊断(CAD)[10,15]。基于深度学习的医学图像分割是 CAD [5] 中最重要的任务之一,其目的是使用深度模型使用掩模和/或轮廓识别和注释感兴趣的区域(例如器官和病变)。 U-Net 是一种广泛使用的基于深度学习的医学图像分割模型,利用收缩路径从输入图像中提取深度特征,使用几乎对称的扩展路径实现精确定位,并采用跳跃连接弥补卷积中的信息丢失[29]。

尽管 U-Net 已经取得了一些巨大的成功,但它对小物体的分割精度仍然不能令人满意。这是因为 U-Net 的收缩路径会逐层提取越来越抽象或粗糙的特征图 [11],因此一些重要的小对象的特征可能会在深层变得不可见甚至丢失,使得 U -Net 难以有效地学习小物体的特征 [9​​]。在 U-Net 中使用跳跃连​​接来解决这个问题,通过将扩展路径中的深层和粗略特征与收缩路径中的浅层和精细特征连接起来以丰富特征信息。但是,这种解决方案存在以下两个缺点: (i) 不相关信息问题:在收缩路径中连接特征不仅将重要的缺失信息导入到扩展路径中的特征映射中,而且还引入了一些本应被忽略的不相关信息。在 U-Net 的更深层过滤,从而反向影响模型的分割性能 [28]。 (ii) 语义差异问题:由于连接的特征图是由位于深度网络不同深度的不同层生成的,它们之间可能存在语义差异,因此直接连接这些特征图可能是不合适的,因此可能会削弱分割准确性 [17,47]。因此,仅使用跳跃连​​接仍然不足以使 UNet 实现对小对象的准确分割。尽管由此产生的分割误差可能相对较小,但在实际的医学图像分割任务中仍然无法接受,并且可能在临床实践中造成致命的后果[47]。例如,当用这个模型来描绘肿瘤放疗的靶区时,即使漏掉了几个肿瘤细胞,也可能导致放疗失败和癌症复发。因此,迫切需要一种更准确的医学图像分割深度模型。

为了克服不相关的信息问题,U-Net 的一种变体 Attention U-Net [28] 被提出来利用注意力门分配具有不同权重的连接特征来抑制不相关区域,同时突出显示对具体的分割任务有用的显著特征。然而,在 Attention U-Net 中,给定层中连接特征的权重由下一层中特征图的信息确定(如何理解下一层中特征图的信息?在Attention U-Net中,注意力门被添加在解码器部分,输入注意力门的特征图是来自编码器的特征图和来自解码器的特征图,来自解码器的特征图在结构图中的位置是下一层,可见Attention U-Net相关结构图);由于更深层生成的特征图更抽象(即更容易丢失小物体的重要特征),Attention U-Net 可能能够突出一些显著特征,但也可能错误地抑制小物体的一些在下一层中丢失的重要特征。另一方面,U-Net++ [47] 是 U-Net 的另一种变体,其中语义差异问题通过将嵌套密集卷积应用于跳过连接以生成包含不同尺度特征信息的特征图来缓解。但是在U-Net++中,多尺度特征信息主要来自于收缩路径更深层生成的比较抽象的特征图,这些特征图通常更容易丢失一些小物体的重要信息,所以U-Net++可能也不适用于小对象分割任务。

w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel_第1张图片
Attention U-Net结构图

w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel_第2张图片
注意力门控图

因此,在这项工作中,我们提出了一种双监督深度分割模型 w-Net,用于更准确的医学图像分割,其中不相关信息问题和语义差异问题分别使用多维自我注意 (MDSA)机制和多样化连接的多尺度卷积(DC-MSC)块解决。一般来说,与传统的 U-Net 相比,所提出的 w-Net 主要有以下三个改进。首先,在w-Net 中,我们在 U-Net 中加入了一个额外的扩展路径,为双监督分割带来了额外的学习损失(称为辅助损失),这可以通过获得更有效和更鲁棒的特征来增强深度模型的特征学习能力。对图像分割具有鲁棒性。具体来说,在附加扩展路径的帮助下,原始扩展路径中的分割学习不仅考虑了来自收缩路径的特征信息,还考虑了来自附加扩展路径的中间分割信息。因此,深度模型可以生成更准确的分割结果,因为最终分割结果可以看作是基于在额外扩展路径中生成的粗略中间分割结果的进一步细化。

此外,w-Net 的第二个进步是提出了一种新颖的多维自我注意 (MDSA) 机制,使用两个连续的自我注意模块,密集空间位置注意 (DSPA) 和通道注意 (CA) 来解决无关信息问题。 ),它们分别捕获特征在空间和通道维度上的自依赖性。具体来说,在 DSPA 中,一个位置在特征图中的重要性取决于它与同一特征图中所有其他位置的依赖关系;同样,在 CA 中,通道的重要性取决于它与同一层内所有其他通道的依赖关系。一般来说,MDSA 具有以下优点: (i) MDSA 中特征的权重是在空间和通道维度上计算的,可以更全面地描述特征的重要性。(ii) MDSA 中的特征权重仅根据来自自身的信息(即自我注意 [44])计算,因此不会遇到与 Attention U-Net 相同的问题。Attention U-Net用到了来自其他层的特征图) (iii) 更重要的是,我们注意到在所有现有的多维注意力工作 [8,38] 中计算空间注意力总是非常耗时和耗费内存,因为特征图的大小通常非常大。因此,为了有效估计空间维度上的特征权重,MDSA 在 DSPA 中应用扩张卷积块将输入特征图转换为密集特征矩阵(经扩张卷积得到的特征图就是密集特征矩阵吗?),其大小远小于输入特征图(即表示以更密集的方式使用特征图),然后使用密集特征矩阵而不是直接使用输入特征图来估计空间依赖关系**(个人理解,实际上就是将传统卷积替换为了扩张卷积)**。因此,根据我们的实验研究,MDSA 比现有的多维注意力解决方案更有效,同时实现了更好的分割性能。

最后,为了缓解语义差异问题,我们建议将不同连接的多尺度卷积(DC-MSC)块进一步集成到 w-Net 的跳过连接中。 DC-MSC利用不同大小的卷积核生成包含不同尺度特征信息的特征图,从而减少了级联特征图之间的语义差异。与现有的多尺度方法 [17,36,41,45] 中多尺度池化或卷积操作都是并行连接的不同,DC-MSC 中的各种大小的卷积操作以串联和并联的方式不同地连接.我们相信多尺度卷积的多样化连接将提高生成的多尺度特征图的利用率,并帮助深度模型实现更好的分割性能。

本文的贡献可以总结如下:

  • 我们确定了 U-Net 现有的两个缺点,并提出了一种双监督深度模型 w-Net,以解决这些问题并实现更准确的医学图像分割。
  • 在 w-Net 中,首先提出了一条额外的扩展路径,以增强基于双重监督的深度分割模型的特征学习能力。然后,为了克服不相关信息问题,进一步提出了一种多维自我注意(MDSA)机制,使用两个连续的自我注意模块来突出显著特征并抑制不相关的信息,以捕捉特征在空间和通道方面上的自依赖性。最后,我们建议将不同连接的多尺度卷积(DC-MSC)块集成到跳过连接中,以解决语义差异问题。
  • 对三个真实世界的腹部 CT 分割数据集进行了广泛的实验研究,结果表明:(i)所提出的 w-Net 在医学图像分割任务的所有指标中显著优于最先进的图像分割方法。
    (ii) 所提出的三个进步对于 w-Net 实现卓越的分割性能都是有效且必不可少的。 (iii) 所提出的多维自我注意(分别是多样化连接的多尺度卷积)在减轻无关紧要信息方面(代表,语义差异)比最先进的注意机制(分别是多尺度方法)更有效问题并实现更准确的医学图像分割。

Related Work

医学图像分割是在临床图像中识别和描绘目标对象(例如器官或病变)的过程。基于深度学习的方法已经广泛应用于医学图像分割任务。 FCN 是第一个使用卷积神经网络的端到端图像分割模型 [25];基于 FCN 的医学图像分割主要是通过首先使用卷积和池化操作进行特征学习,然后应用基于转置卷积上采样的跳过架构进行像素级分类 [1,46] 来实现的。为了获得更精细的分割,进一步提出 U-Net 将 FCN 升级为具有对称收缩(下采样)和扩展(上采样)路径的结构,并且 U-Net 中还使用跳跃连​​接来连接扩展路径中的深度和粗略特征与收缩路径中的浅层和精细特征,以获得更准确和详细的分割[29]。 U-Net 可以说是医学图像分割中采用最广泛的深度模型,最近的工作见证了 U-Net 在各种分割任务中的应用,例如分割脑肿瘤 [2,6,42,43]、肝脏 [16,21 ,24]、胰腺 [28,36] 和视网膜血管 [33,34]。尽管取得了一些成功,但现有的基于 U-Net 的深度模型的性能仍然不能令人满意,特别是在分割医学图像中的小对象方面,因此在这项工作中提出了w-Net。

Improving the U-Net Architecture w-Net 的第一个贡献是通过引入额外的扩展路径来改进 U-Net 的架构。近年来,还存在一些基于深度学习的分割方法,试图优化 U-Net 的结构以获得更好的分割性能 [4,26,28,47]。为了捕捉各种形状的视网膜血管并根据血管的形状自适应地调整感受野,Jin 等人提出了一种可变形 U-Net (DUNet),其中将可变形卷积引入到 U 形架构中以提取上下文信息并实现精确定位 [20]。为了抑制不相关背景信息的响应并增强前景信息的敏感性,提出了Attention U-Net [28]将注意力门集成到扩展路径中以估计特征权重;而双重注意力网络(DANet)[8]在空间和通道维度上都应用了注意力机制。[47] 中引入了 U-Net++,将嵌套密集卷积应用于跳过连接,以减少收缩路径和扩展路径中生成的特征图之间的语义差距;然后 U-Net3+ [16] 使用全面的跳过连接和深度监督进一步改进了 U-Net++。此外,为了更好地模拟 3D 医学图像上的三维空间关系,最近的工作中提出了许多 U-Net 的 3D 变体,例如 3D U-Net [4]、V-Net [26] 和 nnU-Net[18]。因此,为了评估 w-Net 在医学图像分割任务中的性能,六种最先进的分割方法 FCN [25]、U-Net [29]、Attention U-Net [28]、DANet [8]、 U-Net++ [47] 和 U-Net 3+ [16] 被选为我们实验的基线。

Attention mechanisms
w-Net 的第二个改进是采用多维自注意力(MDSA)机制来衡量特征在空间位置和通道维度上的重要性。同样,注意力机制 [23,32] 也已在最近的一些工作中被用于提高基于深度学习的图像处理模型的性能 [19,35,38,39]。为了学习判别特征并解决镜面反射问题,Ni 等人提出了一个新的注意力模块来捕获全局上下文并编码语义依赖关系以强调关键语义特征[27]。 [14] 中提出了挤压和激励网络 (SENet),以显式模拟通道之间的相互依赖关系并自适应地重新校准通道特征响应。由于 SENet 在平均池化过程中可能对噪声敏感,Wang 等人提出通过使用所有位置的特征的加权和来捕获全局感受野的长期依赖关系[37]来解决这个问题。然而,计算所有位置的权重通常非常耗时,为了捕获不同尺度的目标对象,选择性内核网络(SKNet)使用池化操作来压缩输入特征图并利用 softmax attention 融合不同内核大小的分支[22]。

与我们的工作类似,也有一些研究建议沿两个独立的维度推断注意力图。吴等人提出了一个卷积块注意模块(CBAM)来顺序推断通道和空间注意图,然后将其乘以输入特征图以进行自适应特征细化[38]。类似地,为了自适应地整合局部特征与其全局依赖关系,提出了双重注意网络(DANets),将并行位置和通道注意(PPCA)模块与传统扩张的 FCN 相结合,分别对空间和通道维度上的语义相互依赖关系进行建模。 8]。然而,现有的多维注意力工作通常非常耗费时间和内存,尤其是对于高分辨率图像,例如医学图像。不同的是,在这项工作中,所提出的多维自注意力(MDSA)机制使用扩张卷积块生成密集的特征矩阵来减小特征表示的大小,从而大大减少了时间和内存消耗,同时保持了良好的性能突出特点。因此,为了显示 MDSA 在实现更好的医学图像分割方面的有效性,在这项工作中进行了实验研究,以将 MDSA 与最先进的注意机制进行比较:挤压和激发注意(即 SOTA 通道注意) [14]、选择性内核注意(即 SOTA 空间注意)[22],以及并行位置和通道注意(即 SOTA 多维注意)[8]。
Semantic Disparity and Multi-Scale Methods w-Net 的第三个进步是利用不同连接的多尺度卷积块来解决语义差异问题。近年来,一些研究工作也使用多尺度解决方案来提高卷积深度模型的性能 [7],其中多尺度机制可以应用于池化或卷积操作。提出了一种原则性的池化策略,空间金字塔池化 (SPP),以允许使用任意大小的图像作为基于 CNN 的深度模型的输入,这总体上改进了基于 CNN 的图像分类和对象检测方法 [12] .为了在不同的场景中获得准确的分割性能,赵等人提出了一种金字塔场景解析网络(PSPNet),其中采用金字塔池化模块来生成和聚合基于不同区域的上下文,以更好地利用全局上下文信息[45]。除了多尺度池化之外,多尺度卷积还用于生成具有不同细节尺度的特征图。 GoogLeNet 引入的初始模块旨在处理和聚合不同大小内核的视觉信息,以优化特征学习的质量 [31]。此外,Yu 等人开发了一个新的卷积模块,并行扩张卷积(PDC),它使用扩张卷积系统地聚合多尺度上下文信息,而不会丢失密集分割的分辨率[41]。

与这项工作类似,[17] 中也使用多尺度卷积运算来缓解语义差异问题,其中由两个并行卷积核组成的多尺度卷积块被集成到 UNet 的跳过连接中。王等人还将多尺度并行卷积模块合并到跳过连接中,其中多尺度模块的大小增加到三个并行内核[36]。我们注意到上述相关工作都并行处理多尺度池化或卷积操作,为了提高生成的多尺度特征图的利用率,在这项工作中提出了多种连接的多尺度卷积(DC-MSC)块,其中各种大小的卷积操作以串联和并联的方式连接。为了展示 DC-MSC 在医学图像分割中的优越性能,还进行了实验以将 DC-MSC 与三种最先进的多尺度解决方案进行比较:金字塔场景解析网络(即 SOTA 多尺度池化机制) )[45]、并行扩张卷积模块(即SOTA多尺度卷积机制)[41]和并行卷积模块(即针对U-Net中语义差异问题的SOTA多尺度解决方案)[36]。

Dual Supervised Medical Image Segmentation with MDSA and DC-MSC

图 1 显示了 w-Net 的整体结构。与传统的 U-Net 相比,w-Net 主要由三个附加的高级模块组成:附加扩展路径、多维自我注意 (MDSA) 机制和多样化连接的多尺度卷积 (DC-MSC) 块。具体来说,引入了一个额外的扩展路径来带来额外的学习损失,即辅助损失,通过双重监督来增强模型的学习能力。因此,w-Net 可以使用来自收缩路径的特征信息和来自附加扩展路径的中间分割信息来生成更准确的分割结果。此外,在 w-Net 中提出了一种 MDSA 机制,通过使用两个连续的自注意模块,密集空间位置注意 (DSPA) 和通道注意 (CA) 来解决无关信息问题,以捕捉空间和通道中特征的重要性。为了有效地估计空间维度中特征的权重,MDSA 在 DSPA 中应用扩张卷积块将输入特征图转换为尺寸更小的密集特征矩阵,然后用于估计空间依赖关系。最后,w-Net 中的 DC-MSC 块用于使用多种连接的多尺度卷积核来解决语义差异问题,其中各种大小的卷积操作以串联和并联方式连接。因此,这提高了生成的多尺度特征图的利用率,并使最终生成的 DC-MSC 的特征图保留了更全面的不同尺度的语义信息,从而更好地减少了级联特征图之间的语义差异。请注意,虽然 w-Net 旨在分割 2D 医学图像,但它可以很容易地扩展到 3D w-Net 以使用类似于将 U-Net 扩展到 3D U-Net [4] 的方式直接处理 3D 医学图像,即将卷积核和池化操作从 2D 扩展到 3D,并保持通道数不变。

Dual Supervised Segmentation with an Additional Expansive Path

w-Net 的第一个改进是在 U-Net 中加入了一个额外的扩展路径,以通过双重监督实现更准确的医学图像分割。具体来说,与 U-Net 类似,w-Net 只有一个收缩路径;但是,与 U-Net 不同的是,当在收缩路径的最深层获得最抽象的特征图时,它们会被发送到具有相似结构的两条扩展路径。 U-Net中也包含的扩展路径称为原始扩展路径,新添加的扩展路径称为附加扩展路径。在附加扩展路径的每一层中,我们将收缩路径对应层生成的特征图与最后一层中转置卷积上采样操作产生的特征图连接起来(实际上,这个过程与U-Net 中的跳跃连接操作相同)。然后,将附加扩展路径中的级联特征图发送到其后续层以及原始扩展路径的相应层。因此,原始扩展路径的每一层中的上采样特征图不仅与收缩路径中的特征图连接,还与附加扩展路径中的上采样特征图连接。例如,如图 1 所示,与 Fuo4 连接的紫色块是 F1(经DC-MSC模块)(来自收缩路径的相应特征图)和 Fua4(经MDSA模块)(来自附加扩展路径的相应特征图)的连接。最后,在附加扩展路径的帮助下,通过双重监督学习 wNet,即使用来自原始扩展路径的分割损失和来自附加扩展路径的辅助分割损失来训练深度模型。
w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel_第3张图片
**Fig.1 ** w-Net的整体结构,其中附加扩展路径中的蓝色块是对应的DC-MSC模块生成的特征图,原始扩展路径中的紫色块是对应的MDSA和DC-MSC模块生成的特征图

在 w-Net 中引入额外的扩展路径来实现双重监督的优点是双重的:一方面,额外的辅助分割损失可以帮助收缩路径中的特征学习过程获得对医学图像更有效和鲁棒的特征分割;这是因为,随着各种分割监督损失,现在要求收缩路径学习的特征在两个不同的扩展路径中适应两个不同的分割优化方向,从而增强了 w-Net 的特征学习有效性和鲁棒性。另一方面,在w-Net中,原始扩展路径每一层的上采样特征图不仅与收缩路径的特征图连接,还与附加扩展路径的上采样特征图连接;因此原始扩展路径中的分割学习不仅考虑了来自收缩路径的特征信息,还考虑了来自附加扩展路径的中间分割信息,从而有助于 w-Net 生成更准确的分割结果。通过将附加扩展路径中的分割过程看作粗分割过程,在原始扩展路径中生成的最终分割结果可以看作是在附加扩展路径中生成的粗中间分割结果的基础上的进一步细化,这些粗中间分割结果通常更精确。

具有额外扩展路径的对偶监督分割的形式定义可以写如下。 首先,通过将输入图像表示为X,将收缩路径第一层的输出特征映射形式化地表示出来
Eq.(1)
其中Conv1×64表示输入通道数为1,输出通道数为64的卷积运算。 然后,在收缩路径的第ith层(其中i>1)处的输出特征映射被写为
Eq.(2)
其中Conv_2()表示两个连续的卷积运算,Pool_Max()是最大池运算。

给定Fd作为收缩路径最后一层生成的最抽象的特征映射,其中d是收缩路径中的层数,则附加扩展路径中第一次转置卷积上采样生成的特征映射可以形式化地写成
Eq.(3)
然后,通过跳接操作,将附加扩展路径中的第j(j>1)次转置卷积上采样生成的特征映射形式化定义为
Eq.(4)
其中Concat()表示串联操作。

类似地,在原始扩展路径中通过第一次转置卷积上采样生成的特征映射可以形式化定义为
Eq.(5)
此外,在原始扩展路径中,由第j(j>1)次转置卷积上采样生成的特征映射可以形式化定义为
Eq.6
其中Concat(Fuo j-1, Concat(Fua j-1; Fd-j))表示首先将Fua j-1与Fd-j连接起来,然后将得到的特征映射与Fuo j-1连接起来的操作。
最后,将附加扩展路径上的辅助分割损失形式化定义为
Eq.7
其中L是给定分割注释的通道数,Conv64×L是输入通道数为64,输出通道数为L的卷积运算; BCE()是二值交叉熵损失,掩码表示输入医学图像的相应分割注释。 类似地,原始扩展路径处的分割损失可以正式写成
Eq.8
其中λ是控制La和Ls在对偶监督损失中的相对重要性的超参数。

Multi-Dimensional Self-Attention

在W-NET中,我们提出了利用多维自关注(MDSA)机制来弥补信息无关问题,利用两个连续的自关注模块,即密集空间位置关注(DSPA)和通道关注(CA),分别在空间维和通道维捕捉特征的自相关性。 通常,在DSPA中,一个位置在一个特征图中的重要性是由它与同一特征图中所有其他位置的依赖关系决定的; 同样,在CA中,通道的重要性由它与所有其他通道的依赖关系决定。 因此,MDSA通过测量特征在两个不同维度上的重要性,可以更全面地描述特征的重要性; 另外,由于CA和DSPA都是基于自我注意的,所以MDSA不会遇到注意U-Net那样的问题。 我们还注意到,在图1增加多维自关注(MDSA)块,且只添加到附加扩展路径与原扩展路径之间的跳过连接中; 这使得分割模型能够对发送到原始扩展路径的所有特征映射进行自关注操作,同时避免了冗余计算。

具体地,MDSA首先使用密集空间位置关注(DSPA)模块来捕获特征映射中的每个位置与密集特征矩阵(称为密集位置)中的所有位置之间的空间依赖性,其中密集特征矩阵由使用扩展卷积块(在图1中表示为Dconv)的对应特征映射生成。 使用扩展卷积块生成密集的特征矩阵,而不是直接使用原始的特征映射,是为了减小特征表示的规模,这不仅大大减少了时间和内存消耗,而且有助于MDSA获得更好的分割性能(如4.7节所示)。 因此,通过汇总稠密特征矩阵上所有位置的加权特征值来获得特征地图上给定位置的特征值,权重是基于特征地图上给定位置与对应稠密位置之间的特征相似性。 在DSPA的帮助下,即使从远离小目标的区域提取显著特征,也可以利用稠密特征矩阵上与小目标高度相似的显著特征来增强小目标在特征图上不显著的特征。

密集空间位置注意(DSPA)的详细操作和形式定义如下。 在Fig.1中,将附加扩展路径第j层的特征映射FuAa j和收缩路径对应层的特征映射Fd-j-1级联,得到附加扩展路径第j层生成的DSPA的输入特征映射M∈RC×H×W。 形式上,
Eq.10
其中d是收缩路径的层数总和。

我们首先将输入特征映射M重塑为RC×N,其中N是每个通道中的总像素数。 然后将M送入一个扩展的卷积块中,生成一个密集特征矩阵D∈RC×K,其中K是表示D的每个通道中密集特征个数的超参数。然后对M和D的转置进行矩阵乘法,并使用Softmax运算计算出密集空间关注矩阵A∈RN×K。 形式上,
Eq.11
其中aj,i是位于密集空间矩阵A中第j行和第i列的元素,测量密集特征矩阵D的第i个特征对输入特征图M的第j个特征的影响。

在D和A的转置之间进行矩阵乘法,然后使用元素和运算将其结果加到M上。 最后,对求和结果进行重构,得到DSPA的最终输出特征映射O∈RC×H×W。 形式上,
Eq.12
其中λp表示为强度系数,其值初始化为0,并逐渐学会给予空间位置注意图适当的重要性。
类似地,然后在MDSA中使用通道关注(CA)模块来捕获任意两个通道映射之间的通道依赖性,也使用自关注过程,其中通过汇总所有加权通道映射来更新每个通道映射。 因此,小目标在给定通道映射中的不明显特征可以通过在其他类似通道映射中的显著特征来增强,从而进一步弥补了小目标信息的丢失。

通道关注(CA)的详细操作和形式定义如下。 如图1所示,给定CA的输入特征映射M‘∈ RC×H×W,首先将M’重塑为RC×N,然后对M‘与M’的转置进行矩阵乘法,并使用Softmax运算计算出信道关注矩阵A’∈RC×C。 形式上,

Eq.13
其中a’j,i是通道注意矩阵A’中位于第j行和第i列的信道关注矩阵的元素,测量第i个通道对第j个通道的影响。
在M0和A0的转置之间进行矩阵乘法,然后使用元素和运算将其结果加到M’上。 最后,对求和结果进行重构,得到CA的最终输出特征图O‘∈RC×H×W。 形式上,
Eq.14
其中λC控制通道关注图对输入特征图的重要性。 与λp类似; λC最初也被设置为0,并在模型的训练阶段逐步学习。

Diversely-Connected Multi-Scale Convolution

U-NET的另一个缺点是收缩路径和扩展路径生成的特征映射之间存在语义差异[17]。 因此,如果直接使用跳过连接将这些特征映射连接起来,可能会削弱基于U-Net的分割模型的性能。 实际上,上述方法也存在这样的问题:即使在分割模型的跳过连接上应用了多维自注意,但MDSA也只是通过注意操作来突出或抑制特征映射中的信息,而不能有效地弥合收缩路径和扩展路径中生成的特征映射之间的语义鸿沟。

因此,本文提出了一种新的多尺度解决方案, 密集连接多尺度卷积(DC-MSC)来解决语义差异问题。 与U-NET++不同,DC-MSC不依赖于更深的特征图来获取多尺度特征。 它只使用给定层中生成的特征映射作为输入,并利用不同大小的卷积核生成包含不同尺度特征信息的特征映射。 然后融合多尺度特征映射以弥合语义鸿沟。 由于DC-MSC块在给定跳过连接处生成的所有多尺度特征映射都基于相同的源特征映射,而不使用任何来自更深层的特征映射,因此可以在生成的多尺度特征映射中更大程度地保留小目标的特征信息。 因此,DC-MSC是精确小目标分割的较好选择。

具体如图1所示, DC-MSC将给定的输入特征映射表示为X,DC-MSC首先将X发送到核大小为5×5的卷积块中,得到与X相同大小的特征映射X1。形式上,
Eq.15
然后,使用元素求和运算将X1与X相加,求和结果由核大小为3×3的卷积块处理,得到特征映射X2。 形式上,
Eq.16
类似地,将X2与X相加,并通过1×1卷积块进一步处理求和结果,以获得特征映射X3。 形式上,
Eq.17
最后,我们将所有特征映射X串联起来, X1, X2和X3,并对串联结果应用另一个1×1卷积 ,得到最终输出的多尺度特征映射Y。形式上,
Eq.18

Experiments

Datasets

为了评估我们提出的W-NET在不同分割对象大小的医学图像分割任务中的性能,我们在三个计算机断层成像(CT)图像数据集(即肾脏、胰腺和肝脏CT数据集)上进行了广泛的实验,其中每个三维CT样本被分成不同数量的二维CT图像(从几百到一千多不等),图像大小归一化为512×512,每个数据集中约70%的样本被选为训练集,10%的样本被选为验证集, 和测试设置的20%。 这些数据集的详细情况见下文,其统计信息见表1。
w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel_第4张图片
Kidney Data: 这是2010年至2018年间接受部分或根治性肾切除术的210例患者的肾脏CT图像公开集合。 肾脏的平均大小约为5568像素(约占整幅图像的2:1%),而肿瘤的平均大小约为2613像素(约占整幅图像的1:0%); 由于该数据集中的对象一般都是中等大小的,因此本文选择了一个中等对象分割任务,以展示W-NET在中等对象分割方面的性能。
Pancreas Data: 该胰腺数据集由美国纽约纪念斯隆凯特林癌症中心发布,包含281例胰腺肿块切除术患者的CT样本和相应的分割注释。 胰腺的平均大小约为1589像素(约占整幅图像的0:6%),而肿瘤的平均大小约为640像素(约占整幅图像的0:2%); 由于该数据集中的对象都很小,因此本文选择了W-NET来完成具有挑战性的小对象分割任务,以显示W-NET的优越性。
Liver Data: 该公开数据集包含了131例肝脏及其肿瘤的CT样本,其中相应的语义分割面罩由专业放射科医生提供。 肝脏的平均尺寸约为17609像素(约占整幅图像的6:7%),而肿瘤的平均尺寸约为3689像素(约占整幅图像的1:4%); 由于该数据集中的对象规模较大,因此本文选择该数据集中的对象为大型对象分割任务。

Baselines

为了评价所提出的W-NET的性能,选择了六种最先进的基于深度学习的图像分割方法FCN[25]、U-Net[29]、Attention U-Net[28]、DANet[8]、U-Net++[47]和U-Net3+[16]作为基线。 选择这六种方法作为基线的理由如下。 (i)FCN是第一个基于深度学习的端到端图像分割模型; (ii)U-NET可以说是医学图像分割中最广泛采用的深度模型,它也被用作建议的W-NET的主干; (iii)注意U-Net和DANet是解决无关信息问题的最先进的解决办法; U-NET++和U-NET3+是解决语义差异问题的最先进的解决方案。

Implementation Settings

我们的实验使用PyTorch框架实现,并在两个NVIDIA GeForce GTX 2080TI GPU上运行。 建议的W-NET的实现细节如下。W-NET的收缩路径由五层组成,前四层分别使用两个连续的3×3卷积操作和一个2×2最大池化操作构建,第五层仅包含两个3×3卷积操作。 附加扩展路径的结构与原扩展路径相同,均由四层组成,每层中有两个连续的3×3卷积运算和一个2×2转置卷积上采样运算。 此外,收缩路径的第1至第5层的核数分别为64,128, 256,512和1024,而附加扩展路径和原始扩展路径的第1至第4层中的核数分别为为512, 256,128和64。 最后,在输出层增加1×1卷积块,将分割结果的通道数由64个变为2个,分别描述了器官和肿瘤病变的分割掩模。

使用ADAM优化器对所有基线进行训练,该优化器的小批量大小为2,其中ADAM中的权值衰减参数设置为0.00015。 学习速率初始化为0.0001,并随着训练epoch数的上升而衰减; 具体来说,我们首先在第5个epoch结束时将学习速率乘以0.6的衰减因子,然后在训练过程中每三个epoch重复乘以0.6。 最后,我们进行了网格搜索,研究了改变两个超参数λ(方程(9)中定义的训练损失系数,控制辅助损失和分割损失的权重)和K(DSPA模块中稠密特征度量的大小)对W-Net分割性能的影响,分别设置λ=0.15和K=256; 关于网格搜索的详细信息见第4.9节。 也可以应用Dropout技术[40]来防止过拟合。

Evaluation Metrics

为了评估W-NET的分割性能和现有的基线,采用了三个广泛使用的分割评估指标:正预测值(PPV)、灵敏度(SENSI)和骰子相似系数(DSC)。 DSC、PPV和SENSI的正式定义如下。
在这里插入图片描述
其中,TP,即真阳性,是在分割结果中正确分类的阳性像素(即注释的器官或肿瘤区域内的像素)的数目;FP,即假阳性,是被错误地分类为正像素的负像素(即注释背景区域内的像素)的数目;FN,即假阴性,是被错误地分类为负像素的正像素的数目。 具体地说,正预测值(PPV),也称为精度[3],表示被正确分割的正像素与分割结果中被归类为正的所有像素的比例。 灵敏度,也被称为召回[3],是正确分割的正像素与所有在地面真理中注释为正像素的比例。 骰子相似系数(DSC)又称F1-Score[3],是PPV和SENSI的调和平均值,可以从PPV和SENSI两个角度更全面地评价模型的性能。

Main Results

W-NET和六种最先进的医学图像分割基线在三个不同分割对象大小的腹部CT分割数据集上的实验结果如表2所示,六个可视化分割结果的例子如图2所示。
w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel_第5张图片

w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel_第6张图片
Fig.2 我们提出的W-NET的可视化分割结果的例子和三个CT数据集上的基线,其中红色Mask代表器官,蓝色Mask代表肿瘤。

如表2所示,就所有指标而言,Attention U-NET和DANET在所有数据集上普遍优于FCN和U-NET。 这是因为注意机制可以赋予串联特征不同的权重来抑制无关区域,同时突出对特定分割任务有用的显著特征。 这证明了不相关信息问题的存在,也证明了利用注意力机制解决不相关信息问题可以提高深度模型的分割性能。 然后,我们观察到U-NET++和U-NET3+的性能一直优于FCN和U-NET,这是因为U-NET++和U-NET3+分别使用嵌套密集和全尺度跳过连接生成包含不同尺度特征信息的特征映射来缓解语义差异问题。 从而证明了通过多尺度解来缓解语义差异问题可以提高模型的分割性能。 最后,我们发现我们提出的W-NET在所有三个数据集上的性能都优于所有基线,这证明了W-NET在不同的医学图像分割任务中取得了比现有图像分割方案更好的性能。 W-NET具有优异性能的原因在于:(i)W-NET采用了多维自关注(MDSA)机制和多种连接的多尺度卷积(DC-MSC)块来解决无关信息和语义差异问题;(ii)我们在4.7节(4.8)中的额外实验证明,所提出的MDSA机制(DC-MSC块)在医学图像分割方面比现有的关注机制(多尺度解决方案)有更好的改进;(iii)WNET还引入了额外的扩展路径来增强模型的学习能力。

此外,我们还在表2中发现,与最佳基线的性能相比,W-NET在胰腺数据集上的性能改善通常最高,而在肝脏数据集上的性能改善最低。 这是因为肝脏数据集中分割对象的平均大小远大于胰腺数据集中分割对象的平均大小(如表2所示,器官约为10倍,肿瘤约为5倍),使得胰腺分割任务比肝脏分割任务遭受更严重的信息无关和语义差异问题。 结果表明:切分对象越小,无关信息和语义差异问题越严重; (ii)W-NET通过MDSA和DC-MSC解决了医学图像分割中的无关信息和语义差异问题,取得了较好的分割效果。

Fig.2给出了W-NET的可视化分割结果和三个数据集的六个实例的基线。 具体而言,肾脏图像(前两行)表明:(i)FCN和U-NET的分割结果在肾脏和肿瘤中都很不正确,有时甚至遗漏了肿瘤对象; (ii)U-NET++、Attention U-NET、DANet和U-NET3+的肾脏分割效果较好,但对肿瘤对象的分割效果较差; (iii)W-NET的分割性能明显优于基线,其对小肿瘤目标的分割结果与实际情况非常接近。 类似地,我们对胰腺图像有以下观察。 (i)FCN和U-NET不能正确识别和分割胰腺和肿瘤; (ii)U-NET++、Attention U-NET、DANet和U-NET3+较好,但对胰腺和肿瘤边缘区的分割效果不理想; 并且(iii)所提出的W-Net的分割结果是所有模型中最好的。 肝脏图像也有类似的观察,尤其是图2最后一行的情况。 其中W-NET是唯一能正确分割肝脏图像中大部分小肿瘤病灶的模型。 因此,这些可视化的例子再次证明了W-Net通过提出的MDSA机制、DC-MSC块和额外的扩展路径弥补了现有深度分割模型的不足,在医学图像分割任务中取得了更好的性能,尤其是对小目标的分割。

Ablation Study

为了验证所提出的三个先进模块在W-NET中的有效性和必要性,进一步进行了消融研究,介绍了几个仅使用一个或两个先进模块的中间模型,并对其进行了评价。 具体来说,中间模型如下:㈠带AEP的U-Net是在U-Net中加入额外扩展路径的模型; (ii)通过在UNET的跳过连接上增加多维自关注(MDSA)模块,构建了具有MDSA的UNET; (iii)在U-网的跳跃连接上加入多尺度卷积(DC-MSC)模块,得到具有DC-MSC的U-网; (iv)采用AEP+MDSA的U-NET将所提出的附加扩展路径和多维自我关注模块与U-NET集成; (v)与AEP+DC-MSC相结合的UNET将所提出的额外扩展路径和多种连通的多尺度卷积模块结合到U-NET中。

在表3中,所有五个中间模型在所有三个数据库中的所有指标都优于U-NET,这证明了所提出的高级模块都有效地提高了U-NET在医学图像分割任务中的性能。 具体来说,我们首先比较了U-NET和U-NET与AEP的结果,其中U-NET与AEP在所有数据集上的所有度量都优于U-NET。 这是因为额外的扩展路径可以通过获得对图像分割更有效和鲁棒的特征来增强深度模型的特征学习能力。 从而证明了在W-NET中增加一条扩展路径,实现双重监督,可以有效地提高分割模型的性能。 然后,在表3中观察到使用MDSA的UNET和使用DC-MSC的U-NET的性能一直优于U-NET。 这是因为U-Net与MDSA(如U-Net与DC-MSC)使用一种新的注意机制(多尺度解决方案)解决了无关信息问题(如语义差异问题)。 因此,这证明了多维自注意机制和多尺度卷积块在医学图像分割任务中的有效性。 此外,我们注意到使用AEP+MDSA的U-NET总是优于使用AEP的U-NET和使用MDSA的U-NET。 这是因为AEP和MDSA两个先进的模块通过处理不同的问题来提高U-NET的分割性能,即AEP用于获得更有效和鲁棒的特征,而MDSA用于解决无关信息问题。 这证明了将AEP和MDSA结合到U-Net中以获得更准确的分割结果是合理的。 通过比较U-Net与AEP+DC-MSC、U-Net与AEP、UNET与DC-MSC也得到了类似的观察和结论。 最后,我们发现W-NET的性能一直比U-NET和U-NET的AEP+MDSA和U-NET的AEP+DC-MSC要好得多。 这是因为这三个高级模块的目标是解决不同的问题,可以相互补充,更好地提高深度模型的分割性能。 因此,上述观察表明,所提出的三个高级模块都是有效的和必要的X-NET实现优越的医学图像分割性能。

w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel_第7张图片

Multi-Dimensional Self-Attention vs. the State-of-the-art Attention Mechanisms

进一步的实验将我们提出的多维自注意(MDSA)模块与当前最先进的注意机制,即挤压和激励(SE)注意[14](当前最先进的通道注意)、选择核(SK)注意[22](当前最先进的空间注意)和平行位置和通道注意(PPCA)[8](当前最先进的多维注意)进行了比较,其中不同的注意块分别与U-NET结合,以显示它们在增强U-NET在医学图像分割任务中的性能方面的不同能力。 相应的实验结果如图3所示, 并记录在表4中。 结果表明,与现有的信道关注(SE)、空间关注(SK)和多维关注(PPCA)机制相比,将U-NET与我们提出的MDSA模块结合起来,在所有三个数据集上的所有度量都能获得更好的性能改善。 这一发现证明了MDSA在医学图像分割任务中是一个更好的选择,而不是目前最先进的注意机制。

w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel_第8张图片
Fig.3 将多维度的自我注意和最先进的注意机制纳入U-Net的结果。

w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel_第9张图片

Diversely-Connected Multi-Scale Convolution vs. the State-of-the-art Multi-Scale Solutions

同样,为了研究不同的多尺度解决方案对医学图像分割性能的影响,本文进一步将分散连接多尺度卷积(DC-MSC)模块与目前最先进的多尺度解决方案,即金字塔场景解析(PSP)模块[45]、并行卷积(PC)模块[36]和并行扩张卷积(PDC)模块[41])进行了比较,其中多尺度模块被集成到U-Net的跳过连接中。

一般如图4和表5所示, U-Net与DC-MSC模块相结合的模型(用DC-MSC表示U-Net)在所有三个数据集上的所有度量都优于UNET与现有多尺度方案相结合的模型,证明了DC-MSC模块能够实现比现有多尺度方案更准确的医学图像分割。 具体而言,所有基于多尺度卷积的模型(U-Net with PC、U-Net with PDC、U-Net with DC-MSC)的性能均优于基于多尺度池化的模型、U-Net with PSP。 这表明在卷积操作上使用多尺度策略可能比在池化操作上使用多尺度策略更好,因此在我们的DC-MSC中,我们在卷积操作上使用了多种连接的多尺度策略。 此外,我们还注意到DC-MSC的UNET在所有情况下都要比PC的U-Net和PDC的U-Net好得多,这是因为DC-MSC将各种规模的卷积运算串并联起来,而PC和PDC只将它们并联起来,使得DC-MSC能够更全面地利用生成的多尺度特征图。 总之,这些发现清楚地证明了所提出的DC-MSC在实现更好的医学图像分割性能方面的有效性和合理性,优于目前最先进的多尺度解决方案。

w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel_第10张图片
Fig.4 将多种连通的多尺度卷积和最先进的多尺度解结合到U-Net中的结果。

w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel_第11张图片

Effect of Varying Hyper-Parameters K and λ

如Eq.9所示, 在W-Net的最终分割损失函数中使用系数λ来控制分割损失Ls和辅助分割损失La的相对重要性。 因此,λ值的取值对模型的训练质量和最终的分割性能有很大的影响。 同样,在多维自关注(MDSA)模块的扩张卷积块中引入了一个超参数K来决定稠密特征矩阵D中使用的稠密特征的个数,它的取值对MDSA的有效性和模型的最终分割性能有很大的影响。 因此,通过实验研究了改变超参数λ和K对模型训练质量的影响。

由于分割损失Ls明显比辅助分割损失La重要,所以λ的取值从0.05递增到0.3,步长为0.05。 为了提高GPU的计算效率,将K的值设为2n,其中n的值在{4, 5, 6, 7, 8, 9}中搜索。 通常,在Fig.5中,我们观察到当k=256和λ=0.15时,W-net得到的验证损失最小,并以此作为最终的选择值。

w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel_第12张图片
此外,图5结果的另一个重要发现是W-Net的验证损失随K值的增加而波动。这一发现进一步证明了在W-Net的MDSA模块中使用稠密特征矩阵而不是直接使用输入特征映射的合理性: 由于MDSA中空间相关性估计的精度并不保证随着稠密特征矩阵D大小的增加而增加,因此可以说,在MDSA中使用比输入特征图小得多的稠密特征矩阵并不一定会削弱特征权重估计的精度和模型的特征学习能力,同时保证了模型的训练效率。 因此,在适当调整超参数K的情况下,使用稠密特征矩阵不仅可以大大提高W-Net的效率,而且可以提高W-Net的有效性。

Training and Inference Efficiency

表6显示了W-NET以及最先进的基线的训练时间成本(以每个epoch/小时为单位)和推理效率(以每秒图像为单位)。 通常,我们注意到模型越复杂,其训练和推理效率就越低。 具体而言,我们得到了以下结论:(一)通过使用注意机制来解决无关信息问题,注意U-NET和DANET的训练和推理效率较低。 (ii)采用多尺度解来克服语义差异问题,不可避免地增加了训练的时间开销,降低了U-NET++和U-NET3+的推理效率。 (iii)由于使用了额外的扩展路径进行双重监督,并使用功能更强大但也更复杂的模块MDSA和DC-MSC来解决信息无关和语义差异问题,W-NET不可避免地比基线的时间成本更高,推理效率更低。 然而,W-NET的训练和推理效率仍然接近于U-NET3+,因此考虑到当前设备计算能力的不断提高,牺牲有限的效率来提高精度对于医学图像分割任务是可以接受的。

w-net: Dual supervised medical image segmentation with multi-dimensional self-attention and diversel_第13张图片

Discussion and Future Work

Social impact of w-net

所提出的W-NET可广泛应用于许多需要对医学图像进行分割的临床场景中,有效地减少了医生的工作量,提高了医学图像分割的效率和准确性。 我们以肿瘤的放射治疗为例,医生需要在患者的三维CT图像上准确勾画出肿瘤区域的轮廓,作为放射治疗靶区。 然而,每张3D CT都是由上百张切片组成,需要一名有经验的医生花几个小时逐一批注。 而且,由于肿瘤边缘凹凸不平,非常难以勾画,要保证标注的准确性和全面性,通常需要多位医生对同一张图像进行独立标注,然后汇聚在一起作为最终结果。 因此,整个图像分割过程非常费时费力; 这不仅极大地消耗了医疗社会资源(如有经验的医生的时间),而且可能会给患者带来漫长的等待时间,延误治疗。 通过将我们提出的自动分割解决方案W-NET应用于此类临床实践,该模型可以在几秒钟内自动生成分割结果草稿,然后将其发送给有经验的医生进行微调。 这大大减轻了医生的工作量,为病人节省了时间和金钱。

Limitation and Future Work

尽管在医学图像分割任务中取得了较好的性能,但我们也在实验结果中观察到,包括W-NET在内的所有分割模型在胰腺数据集上的性能都比在肾脏和肝脏数据集上的性能要差得多。 这是因为医学图像中胰腺的形状和外观比肾脏和肝脏的形状和外观要多种多样得多,因此深度模型学习其形态特征的难度更大。 因此,进一步完善W-Net中的特征学习模块来解决这一问题,使W-Net更适用于胰腺等形态学上多种多样的物体的分割任务,是今后一个值得研究的工作。 此外,在未来还将进行更多的实验来研究W-NET在不同类型的医学图像如MRI、PET、X射线等的分割任务中的性能。

Conclusion

针对U-Net存在的信息无关问题和语义差异问题,提出了一种新的双监督医学图像分割模型W-Net,该模型利用多维自关注(MDSA)机制和多尺度卷积(DC-MSC)分块来弥补这两个问题,实现了更精确的医学图像分割。 具体来说,X-NET的技术贡献有三个方面:首先,我们在U-NET中加入了一个额外的扩展路径,引入了一个额外的监督信号,称为辅助损失,通过双重监督来获得更有效和鲁棒的图像分割。 然后,在X-NET中提出了MDSA机制,通过两个连续的自关注模块来捕获特征在空间和信道维度上的重要性,解决了信息无关问题。 最后,为了弥补语义差异问题,提出了DC-MSC块,并将其集成到W-Net的跳过连接中,将多个多尺度卷积运算串并联连接起来,以更全面地利用生成的多尺度特征映射。 在三个真实的医学图像分割数据集上进行了大量的实验研究,结果表明,在医学图像分割任务中,所提出的W-NET在所有指标上都明显优于现有的图像分割方案,而额外的昂贵路径、MDSA和DC-MSC都是X-NET获得优越分割性能的有效和必要的。

你可能感兴趣的:(DeepLearning,论文研读,医学图形处理,深度学习,医学图像分割)