论文:TMI 2020
代码: https://github.com/jianpengz/ConResNet
数据集:BraTS 2018, Pancreas-CT(胰腺)
这篇文章提出了三维上下文残差网络(ConResNet)用于三维医学图像的精确分割。该模型由编码器、分割解码器和上下文残差解码器组成。作者设计了上下文残差模块,并用它在每个尺度上桥接两个解码器。每个上下文残差模块包含上下文残差映射和上下文注意映射,前者目的是明确地学习片间上下文信息,而后者是利用片间上下文作为一种注意来提高分割精度。
上下文学习
上下文学习的策略有很多,大致可分为三类。
首先,为了探索多尺度的上下文信息,就有人采用了不同尺度的金字塔空间池化策略来聚集多尺度的全局信息。将不同扩张速率的atrous金字塔池化引入并行分支,进行多尺度表征聚合。
其次,为了扩大感受野,用扩张率可调的atrous 卷积代替了传统的卷积,在许多计算机视觉任务中,如分割、检测和超分,都表现出了优越的性能。利用大型卷积核捕捉丰富的全局上下文信息,这有利于密集的逐像素预测任务。
第三,提出了许多基于注意的方法来过滤外部信息。通过显式建模卷积特征的通道相关性,自适应地重新校准通道特征响应。设计了一个具有自底向上和自顶向下前馈结构的注意模块来学习软注意权重。通过使用高级特征来生成低级层次的注意图,来开发深层网络的内在自我注意能力。
Introduction
医学图像提供了活体解剖或机能的可视化表示,这对临床分析和医学干预是必不可少的。三维医学图像分割的目的是预测每个体素的语义类别(即特定的器官或病变),是计算机辅助诊断(CAD)的基础和关键任务,这是因为器官或肿瘤的准确分割不仅有助于诊断,而且对评估疾病的严重程度和预后有价值。然而,由于软组织对比度低、器官和肿瘤在形状、大小和位置上的异质性,这种分割任务极具挑战性。此外,由于医学数据的获取和标注费用昂贵,通常缺乏足够的标注数据来训练分割模型,这使得三维医学图像的分割任务更加艰巨[1-3]。
近年来,深度卷积神经网络(DCNNs)在图像分割方面取得了惊人的成功。为了增强dcnn对医学图像的分割能力,人们做了很多尝试。例如,对编码器-解码器体系结构进行了多方面的改进,以保持低层次的详细信息并获得清晰的对象边界[4]-[6],采用空间金字塔池化方法利用多尺度信息[6],在分割模型中引入了atrous卷积来有效地扩展接受域[7],并且在分割模型中引入了几种注意力学习机制,使它们能够更多地关注特定的位置和/或通道[8],[9]。在3D医学图像分割任务中,3D dcnn比2D dcnn[10] -[13]表现出了显著的改进,因为它们能够探索跨片包含的上下文信息,这大大有助于更好的分割性能。因此,我们认为可以通过更有效地捕获和利用切片间的上下文信息来进一步提高三维医学图像分割的准确性。
然而,在解剖结构复杂的体积图像中,很难获取层间上下文信息。以磁共振(MR)序列中的脑瘤为例。在图1中,第一行显示了从脑肿瘤序列中抽取的四个相邻切片,第二行给出了每一个切片肿瘤区域的Ground Truth,第三行显示任意两个相邻切片之间肿瘤区域的体素差异,包括向外延伸区域或向内收缩区域。我们将这种差异定义为 切片间上下文残余,它出现在肿瘤表面或附近,包含了肿瘤的基本信息和形态学信息,因为我们可以利用它和任何切片上的肿瘤区域一起,重建三维肿瘤的形状。从直观上看,在分割过程中探索切片间的上下文残差一定有利于提高分割的准确性。不幸的是,由于相邻两个切片的肿瘤区域形状和大小相似,切片间的上下文残余通常很小,因此无法直接表征。
本文提出了一种用于三维医学图像精确分割的三维上下文残差网络(ConResNet)。ConResNet有一个编码器-解码器架构,分别包含一个用于特征提取的编码器和两个分别用于生成分割掩码和片间上下文残差的解码器。上下文残差(ConRes)解码器将分割解码器产生的相邻切片的残差特征映射作为输入,并反馈给分割解码器作为一种注意引导,旨在提高分割模型有效感知和使用切片间上下文信息的能力(见图2)。ConRes解码器的设计在概念上是通用的,并与任何现有的基于3D dcnn的医学图像分割模型兼容。我们在MICCAI 2018脑肿瘤分割(BraTS)数据集和NIH胰腺分割数据集上评估了提出的ConResNet模型,并在这两种分割任务上取得了最先进的性能。本文主要贡献如下:
• 我们建议将ConRes解码器添加到编码器-解码器结构中,以明确提高模型的3D上下文感知能力,从而提高分割精度。
• 我们设计了上下文残差模块,用于分割解码器和ConRes解码器之间的每个尺度,同时进行上下文残差映射和上下文注意映射。
• 我们提出了一个精确的三维医学图像分割模型,称为ConResNet,它在脑肿瘤分割任务和胰腺分割任务上实现了比最先进的方法更好的性能。
Related Work
A. Context Learning
对象的上下文提供了其周围环境的信息,因此对语义分割是必不可少的。有很多学习情境的策略,大致可以分为三类。首先,为了探索多尺度的上下文信息,Zhao等[14]采用不同尺度的金字塔空间池策略聚合多尺度全局信息。Chen等[6]将不同扩张速率的atrous空间金字塔池引入并行分支,进行多尺度表示聚合。其次,为了扩大感受域,Yu和Koltun用扩张速率可调的atrous卷积取代了传统的卷积,这在许多计算机视觉任务中表现出了优越的性能,如分割[15]、检测[16]和超分辨率[17]。Peng等人利用大内核捕获丰富的全局上下文信息,这有利于密集的逐像素预测任务。第三,提出了许多基于注意力的方法来过滤多余的信息。Hu等人通过明确地建模卷积特征的信道依赖关系,自适应地重新校准了信道相关的特征响应。Wang等[20]设计了一个具有自下而上和自上而下前馈结构的注意力模块来学习软注意力权重。在我们之前的工作[21]中,我们利用深度网络的内在自注意能力,利用高级特征生成低级层的注意地图。
这些策略已经在许多2D场景中证明了它们的有效性,其中一些已经扩展到3D场景。Wang et al.[22]利用带有组扩张卷积的3D全卷积网络(FCN)对MR序列中的前列腺进行分割。Schlemper et al.[8]等人探索了一种3D注意门控网络,该网络通过将注意机制嵌入到一个u型分割网络中来进行3D器官分割,从而突出了与任务相关的显著区域。我们也尝试使用三维atrous空间金字塔池捕获多尺度信息肝肿瘤分割的CT体积[23]。
这些二维和三维策略虽然提高了性能,但不能直接表征切片间的上下文残差信息,而这对于三维医学图像分割尤为重要。
B. Residual Learning
残差学习可以追溯到他等人[24]的开创性工作,从那时起,它已经成功地应用于许多计算机视觉任务,包括分类、分割、检测和跟踪。残差学习的思想是通过直接从输入跳到输出的跳跃连接来学习输入和输出特征映射之间的残差。通过跳跃连接,残差学习消除了退化问题,因此可以训练具有数百,甚至数千层的非常深的网络。在这项工作中,所提出的ConRes解码器以感知相邻两个切片之间的特征残差为目标,从而增强了模型利用三维上下文信息进行分割的能力。
C. Medical Image Segmentation
近年来,二维dcnn和三维dcnn都成为医学图像分割中越来越流行的工具。Ronneberger等人[4]提出了一种u型架构(UNet),该架构包括一个编码器路径来捕获与分割相关的高级语义,以及一个从编码器中带有跳跃连接的对称解码器来生成分割结果,并在几个2D医学图像分割任务中取得了优异的性能。Fu等人[30]设计了2D M-Net,将多尺度u -类网络与侧输出层结合起来,提高了视盘和杯的分割性能。Chen等[31]利用一个二维深度轮廓感知网络,以端到端的方式利用多层次上下文特征表示,实现有效的gland分割。当应用于3D医学图像时,这些二维模型以逐片方式执行分割任务,因此无法捕获片间上下文信息,导致分割精度有限[32]。
利用三维卷积,三维dcnn可以直接处理体积数据,因此在三维医学图像分割方面比2D dcnn具有明显的优势。Dou等人[11]设计了一个3D全卷积网络来生成高质量的评分地图,用于自动3D肝脏分割。Li等[33]在三维分割网络中引入多尺度上下文模块,利用多尺度上下文信息进行椎间盘分割。同时,Chen等[34]将轮廓长度和区域约束融合到损失函数中,增强分割区域的平滑性。Karimi和Salcudean[35]引入了基于Hausdorff距离的损失函数来最小化目标预测和地面真实表面之间的最大偏差。之前我们开发了一种轻量级混合卷积网络,用低成本的2D卷积代替网络底部的3D卷积,减少模型参数,仅使用有限的训练数据[23]来提高分割性能。
我们没有设计新的分割模型,而是通过在现有的三维dcnn中添加ConRes解码器来提高其精度,该解码器能够捕获和利用切片间的上下文残差信息。
网络结构
Method
用 代表3D医学图像,S是切片数,H,W是每张切片的长和宽。 代表 相应的 Ground Truth。其中每个体素的语义标签为。
上下文残差掩膜的Ground Truth为 ,每个元素的计算方法为。 意味着相邻两层()在 像素点具有相同的语义分类,比如都是前景或都是背景, 意味着这两个像素点有1个是前景另一个是背景。
提出的ConResNet的目的是同时预测分割掩码和残差掩码,公式可以表达为,是的分割预测,是的残差预测,是ConResNet的参数。ConResNet有1个共享编码器用来提取特征,2个解码器分别预测。上下文残差模块是两个解码器的桥梁,嵌入在双解码器的每一层中。分割解码器的语义特征通过一系列的操作转换为上下文残差特征,称为上下文残差映射,,并输入ConRes解码器以进行改良。ConRes解码器通过上下文注意映射提供注意力指导,以加强分割解码器的3D上下文感知能力。
A. Shared Encoder
共享编码器由九个残差块组成,每个残差块由两个3× 3× 3个卷积层和一个从输入到输出的跳跃连接。由于GPU内存有限,我们必须用非常小的批量来训练网络,比如每个GPU一个样本。因此,为了加快训练过程,我们使用对批量大小不敏感的组数为8的group normalization。此外,我们使用权重标准化算法对卷积层的权重进行标准化来加速 micro-batch训练(PS:博主认为作者用这种方式代替了常用的何凯明初始化)。如图2所示,编码过程可以分为五个阶段。在第一阶段,输入由一个卷积层处理,卷积层包含32个核和一个残差块。在接下来的三个阶段中的每一个阶段中,数据都由一个卷积层处理,卷积层具有两倍的核,步长为2和两个剩余块。因此,我们逐渐地将特征映射的样本减少到输入大小的1/8,同时将通道数从32个增加到256个,从而扩大了感受野,减少了计算量。在最后一个阶段,我们使用两个残差块,使用扩张率为2的空洞卷积来进一步扩展感受野,同时保持更多形状和边缘细节的特征分辨率。
B. Dual Decoders
我们的ConResNet包含两个解码器,即分段解码器和ConRes解码器。由分割解码器产生分割掩模或由ConRes解码器产生残余掩模包括三个阶段。在每一阶段,我们都提出了一个上下文残差模块来桥接分割解码器和ConRes解码器。具体而言,分割解码器首先使用三线性插值对先前的特征映射进行上采样,然后使用元素求和将其与编码器传递的低层特征进行融合。融合特征的上下文残差被传输到ConRes解码器。ConRes译码器融合从分割译码器传来的上下文残差特征和从前一层传来的特征,然后对它们进行细化以预测残差掩码。此外,由ConRes解码器产生的片间上下文剩余信息被传送回分割解码器作为注意引导,以提高分割解码器感知3D上下文的能力。为了匹配编码器中的通道数,我们在每次上采样操作后将通道减半。结果,我们得到一个分割掩模和每个输入体积对应的片间上下文剩余掩模。
D. Network Optimization
对于分割解码器,Loss被定义为以下交叉熵损耗和Dice损耗的组合:
是二分类交叉熵loss,分别是在(s,h,w)的预测和Ground Truth,是Dice loss的平滑因子。
训练ConRes解码器由上下文残差掩码的Ground Truth监督。采用深度监控技术(见图2)加速收敛。注意,采用额外的卷积层用深度监督预测residual masks。由于前景和背景体素在每个 context residual mask中高度不平衡,因此我们为二进制交叉熵损失函数中的前景体素设置权重,如下所示
其中i(=0,1,2)表示第i个上下文残差预测,
类的权重,Vk是属于k类的体素数。上下文剩余监管的总体损失定义为
其中权衡参数λ 控制前层中损失的影响,并根据经验设置为0.5。
因此,所提出的ConResNet可以通过核心分割和辅助的上下文残差监督以端到端的方式最小化联合损失L=Lseg+Lres来联合优化。
IV. EXPERIMENTS
A. Datasets
1) BraTS数据集:BraTS数据集由MICCAI 2018脑肿瘤分割挑战收集和共享。这个挑战的目的是开发自动分割算法来描绘本质上异质性的脑肿瘤,即:(1)增强型肿瘤(ET),(2)肿瘤核心(TC),包括ET、坏死和非增强型肿瘤核心,以及(3)包含TC和瘤周水肿的整个肿瘤(WT)。BraTS数据集有285个训练案例和66个在线测试案例。每个病例包含四个MR序列,包括T1、T1c、T2和FLAIR。所有序列都注册到相同的解剖模板上,并插入到相同大小的155× 240× 240个体素,体素大小为1.0× 1.0× 1.0。训练案例的体素分割地面真实性是公开的,但是验证案例的地面真实性被保留用于在线评估。
B. Implementation Details
使用PyTorch实现ConResNet,两个nvidia2080ti gpu,使用Adam,批大小为2,权重衰减为0.0005。我们将初始学习率设置为0.0001,并根据下列多项式进行衰减
其中t是当前迭代的索引,T是迭代的总数。为了减少过度拟合,我们采用了简单的在线数据增强技术,包括随机缩放和三维翻转。
在BraTS数据集上,我们首先将每个MR序列中的体素值标准化为标准正态分布,然后将四种可用模式串联成一个具有4个通道的多模态volume。在训练阶段,我们随机裁剪了大小为80×160×160作为训练样本。我们把这个多类分割问题看作三个二进制分割任务。因此,我们的ConResNet的最后一个解码层有三个输出通道,分别使用sigmoid激活产生ET、WT和TC的分割结果。通过这种方法,我们直接优化了三个子区域(ET、WT和TC)。
C. Results
- Comparison on the BraTS Dataset:
- Comparison on the Pancreas-CT Dataset:
- Visualization of the Learned Context Residual Attention Maps:在图6中,我们可视化了学习上下文剩余注意图,并比较了使用或不使用上下文注意图获得的特征图。结果表明,学习到的上下文剩余注意图突出了脑肿瘤区域的上下文剩余位置。通过上下文注意映射,得到的特征映射能够更好地突出这些子区域的边界,这有利于更好地分割。
V. DISCUSSION
A. Ablation Analysis
这项工作的主要贡献是将ConRes解码器和上下文剩余模型添加到编码器-解码器结构中,以提高分割性能,并包含上下文剩余映射和上下文注意映射。为了验证这个设计的有效性,我们在BraTS数据集上进行了消融实验。为了便于定量评价,我们从训练集中随机抽取35个病例组成局部验证集。因此,我们在验证集上评估时有250个训练案例(35个案例),在测试集上评估时有285个案例(66个案例)。我们的ConResNet在本地验证集上有/没有上下文剩余映射和上下文注意映射的性能如表3所示。请注意,我们保持其他设置(如网络宽度、深度和训练策略)相同,以确保公平比较。
结果表明,使用上下文残差映射有助于分割模型在ET、WT和TC上获得更大的Dice分数和更小的Hausdorff距离,并且在所有度量上都有显著的性能改进。同时,将上下文注意映射和上下文残差映射结合到模型中,可以进一步提高分割性能。因此,与既不使用上下文残差映射也不使用上下文注意映射的基线模型相比,我们的ConResNet在ET、WT和TC的分割上分别提高了1.66%、0.83%和2.27%的Dice分数,减少了1.76、0.41和1.44的Hausdorff距离。
重叠在FLAIR切片上的分割结果和分割脑肿瘤的三维可视化如图5所示。结果表明,我们的ConResNet所得到的结果更接近于地面真实情况。表III中的定量评估和图5中的定性比较都证明了所提出的ConResNet在三维医学图像分割中的有效性。
在图7中,我们还可视化了通过基线模型、仅具有上下文剩余映射的模型和同时使用上下文剩余映射和上下文注意映射的ConResNet获得的特征映射的信道方式的总和。结果表明,该模型生成的特征图比其他模型生成的特征图更关注目标区域,有利于分割。
B. Deep Supervision
所提出的ConResNet还使用了深度监控,这是由权衡参数控制的λ (见式(8))。为了验证深度监督的贡献,我们在BraTS数据集上对模型进行了四次训练λ 分别为0、0.1、0.5和1。请注意λ = 0表示没有深度监督。在图8中,我们观察到,当λ = 0.5. 因此,我们根据经验设定λ 在我们的实验中是0.5。
C. Learning Context Residual Along Other Views
我们的ConResNet不受沿轴向视图的切片间剩余信息的限制。我们可以很容易地将所提出的上下文剩余学习应用于矢状面和冠状面视图。以矢状位图像为例,计算每对相邻特征沿纵轴的位置绝对差,并训练ConResNet预测矢状位图像。如表4所示,我们比较了ConResNet模型在本地验证集上的性能,分别考虑了轴向视图、矢状视图和冠状视图的残余信息。结果表明,当考虑到这三种观点时,可以获得相当的性能。它还揭示了具有任何视图的ConResNet在所有评价指标方面都优于基线模型。这些结果证明了所提出的情境剩余学习的有效性,它不局限于轴向的观点。
D. Applying to Multi-Class Problems
让我们考虑一个C类的多类分割任务,其中分割掩码的Ground Truth为,每一类 ,context residual mask计算公式为:
在多类模式下,ConResNet预测softmax激活后的分割掩模,并预测sigmoid激活后每个类别的剩余掩模。另外,在训练过程中,我们忽略了背景的残差掩蔽,只考虑了C类的误差反向传播。我们将多类ConResNet与BraTS数据集上的二进制ConResNet进行了比较。脑肿瘤分割任务可以分为三个二值分割问题,包括ET与其他分割问题、WT与其他分割问题、TC与其他分割问题,也可以分为四类分割问题
这四类包括:0背景,1坏死无强化肿瘤核心,2瘤周水肿,3强化肿瘤。我们仍然评估了三个子区域的分割性能,就像在BraTS挑战中所做的那样。表V显示了基线模型和我们的ConResNet在本地验证集的二进制或多类模式下的性能。结果表明,二进制模式比多类模式具有更好的性能,这可能是由于三个子区域的直接优化。然而,我们的ConResNet在二进制和多类设置中都比基线模型有更好的性能。
E. Comparing to Boundary Loss-Based Methods
文献[35]和文献[53]中的方法使用新设计的边界损失函数来强制模型注意物体表面的边界像素。与之有本质区别的是,ConResNet的目标是学习切片间的上下文残差,它包含了肿瘤的重要而有趣的形态学信息,并通过同时进行上下文残差映射和上下文注意映射来利用上下文残差提高分割性能。尽管上下文剩余体素出现在肿瘤表面或其附近,但是使用上下文剩余学习不同于定义边界丢失。事实上,边界损失可以纳入我们的模型中,以进一步改善其性能。在这种情况下,我们的ConResNet有一个复合损失函数
是权重因子,是边界loss。我们比较了基线模型和我们的ConResNet模型,在局部验证集上使用和不使用边界损失。表六显示,使用边界损失可以进一步提高基线模型和我们的ConResNet的性能。然而,它也表明,虽然边界损失有利于此分割任务,我们的ConResNet甚至优于基线模型的边界损失。一般来说,增加边界损失或使用上下文残差学习可以有效地帮助模型更加关注边界,从而提高分割性能,特别是在每个目标体的表面定位方面。有趣的是,这两种方法都从不同的角度处理了边界的差异。联合使用上下文剩余学习和边界损失能够产生相互促进。
F. Efficiency Analysis
我们的ConResNet有双解码器,这不可避免地增加了参数和计算的数量。表七列出了VAE Seg、基线和我们的ConResNet的参数数量、模型大小、每秒千兆浮点运算(GFLOPs)。请注意,GFLOPs是在输入为大小为80× 160× 160的三维体积时的计算。结果表明,我们的ConResNet的参数比基线略多(增加了2.66%),计算量比基线略多(增加了18.64%),模式尺寸比基线大(增加了2.53%)。然而,考虑到表III和图5中所示的性能改进,我们认为复杂性的这种适度增加是可以接受的。此外,尽管ConResNet的速度比基线模型慢一些,但它几乎可以实时地进行脑肿瘤分割,因此具有临床应用的潜力。
VI. CONCLUSION
在本文中,我们提出了具有显式3D上下文学习的ConResNet,以提高DCNNs感知层间上下文的能力,从而对体积医学图像进行精确分割。我们在BraTS数据集和胰腺CT数据集上对该模型进行了评估。我们的结果表明,提出的ConResNet在脑肿瘤分割和胰腺分割任务上都优于现有的方法。我们的研究也证明了所提出的语境学习的有效性,包括语境剩余映射和语境注意映射。在我们的未来工作中,我们计划将预测的残差掩码作为一个突出易出错区域的先验处理,并将其与输入图像连接起来作为另一个分割网络的输入,以获得更好的结果。此外,我们将探讨如何将所提出的3D情境学习与自监督学习相结合,进而将此工作延伸至半监督分割问题。
参考链接:
[深度学习论文笔记] Inter-slice Context Residual Learning for 3D Medical Image Segmentation