【论文翻译】Recurrent Saliency Transformation Network: Incorporating Multi-Stage Visual Cues for Small ...

项目地址:https://github.com/twni2016/OrganSegRSTN_PyTorch

完整的图、表及引用见原文,用于学习记录,与有需要的人分享。

摘要

我们的目标是从腹部CT扫描中分割小的器官(如胰腺)。由于目标在输入图像中往往占据相对较小的区域,深度神经网络容易被复杂多变的背景所混淆。为了缓解这种情况,研究人员提出了一种由粗到细的方法[46],该方法使用从第一个(粗)阶段的预测来表示第二个(细)阶段的更小的输入区域。该算法虽然有效,但对两个阶段分别进行了处理,缺乏全局能量函数的优化,限制了其融合多阶段视觉线索的能力。缺少上下文信息导致迭代收敛不理想,精细阶段的分割精度有时甚至低于粗阶段。

提出了一种递归显著性变换网络。关键的创新是显著性转换模块,该模块将前一次迭代的分段概率图反复转换为空间权值,并将这些权值应用于当前迭代。这给我们带来了双重好处。在训练中,它允许在处理不同输入规模的深层网络上进行联合优化。在测试中,通过迭代传播多阶段的视觉信息,提高分割精度。美国国立卫生研究院胰腺分割数据集的实验证明了最先进的准确性,它比以前最好的平均超过2%。在我们自己收集的一个更大的数据集中,对几个小器官的准确性也有更高的报道。此外,该方法具有较好的收敛性,使其在实际应用中更加有效和可靠。

1 介绍

本文主要研究腹部CT扫描对小器官(如胰腺)的分割,这是计算机辅助人类医生进行临床应用的重要前提。这个问题在研究领域被命名为医疗图像分析。近年来,随着深度学习,尤其是卷积神经网络[18][27]的快速发展,这一领域取得了很大的进展。许多传统的分割方法,如基于图像的分割方法[1]或基于手工制作的局部特征[41]的分割方法,已经被深度分割网络所取代,这些方法通常产生更高的分割精度[33][34]。

从CT扫描中分割一个小的器官常常是一件困难的事情。由于目标通常只占输入数据的一小部分(如二维图像中小于1.5%,见图1),FCN[27]和DeepLab[5]等深度分割网络容易被背景区域混淆,可能包含复杂多变的内容。研究人员提出了一种由粗到细的[46]方法,该方法分两个阶段,粗阶段提供一个粗略的定位,精细阶段执行精确的分段。但是,尽管先进的性能实现胰腺分割,这种方法受到不一致之间的训练和测试流程图,也就是说,训练阶段处理粗和细阶段分别,没有全局能量函数最小化,但测试阶段假定这两个阶段1相互合作的一个迭代过程。从另一个角度来看,这也使得多阶段的视觉线索很难被整合到分割中,例如,除了边界框,之前的带有丰富信息的分割掩码被丢弃。作为其结果的一部分,由一系列迭代组成的精细阶段不能很好地收敛,有时精细阶段的分割精度甚至低于粗阶段(见3.1节)。

为了克服这些缺点,我们提出了一个循环显著性转换网络。主要的创新是将粗、细阶段与显著性转换模块关联起来,在当前迭代中,显著性转换模块将之前迭代的分割概率图作为空间先验反复转换。这给我们带来了[46]的两倍优势。首先,在训练阶段,对粗尺度网络和细尺度网络进行联合优化,提高两者的分割能力。其次,在测试阶段,保留每个迭代的分割掩码,并在整个迭代过程中进行传播,使多阶段的视觉线索被纳入到更精确的分割中。据我们所知,这一想法并没有在计算机视觉领域得到研究,因为它需要利用CT扫描的一些特殊特性(见3.4节)。

我们在两个CT数据集上进行了小器官分割实验。在NIH的胰腺分割数据集[34]上,我们的方法比目前的平均水平平均高出2%以上Dice-Sørensen系数(DSC)。在我们团队中放射科医生收集的另一个多器官数据集上,我们还展示了我们的方法在各种小器官上优于基线。在测试阶段,我们的方法具有较好的收敛性,保证了其在实际临床应用中的有效性和可靠性。

本文的其余部分组织如下。第二部分简要回顾了相关工作,第三部分描述了所提出的方法。实验结果表明第4节和第5节,我们在第6节中得出结论。

2 相关工作

计算机辅助诊断(CAD)是一项重要的技术,可以在许多临床场景中辅助人类医生。医学影像分析是CAD的重要前提。作为一种流行且廉价的医学成像方法,对比增强计算机断层扫描(CECT)可以生成内脏、骨骼、软组织和血管的详细图像。对进一步诊断[2]、[40]、[13]、[45]具有重要价值。为了捕捉不同器官的特定特性,研究人员经常为每一个器官设计个性化的算法。典型的例子包括肝脏[25][15]、脾脏[26]、肾脏[23][1]、肺[16]、胰腺[7][41]等。小器官(如胰腺)通常较难分割,部分原因是它们的对比度较低,大小和(通常是不规则的)形状具有较大的原子变异。

与上述采用传统分割方法的论文相比,深度学习的进步带来了更强大、更有效的解决方案。特别是卷积神经网络在图像分类[18][37][14]、目标检测[10][32]、语义分割[27][5]等视觉任务中得到了广泛的应用。递归神经网络作为一类相关网络,首先设计用来处理序列数据[11][39],然后推广到图像分类[22]和场景标记[31]任务。在医学影像学分析领域,特别是器官分段,这些技术已被证明明显优于传统方法,如分割肝脏[8],肺[12],或胰腺[35][3][36]。注意,医学图像与自然图像的不同之处在于数据以体积的形式出现。为了处理这些数据,研究人员要么将一个三维体切片成二维切片(如本文所述),要么直接训练一个三维网络[29][30][17][43]。在后一种情况下,有限的GPU内存常常导致基于补丁的训练和测试策略。在[20]中讨论了2D和3D方法之间的权衡。

与整个CT体积相比,本文所考虑的器官往往占据相对较小的面积。由于像FCN[27]这样的深度分割网络对小目标的描述不太准确,研究人员提出了两种方法来提高检测和/或分割性能。第一种方法是对图像进行重新编码,使目标与训练样本[42]具有可比性,第二种方法考虑对每个目标聚焦于图像的一个子区域,在检测[4]或分割[46]时获得更高的精度。在显著性检测[19]或语义分段[21][24]的计算机视觉领域,也对粗到精的思想进行了深入的研究。本文基于最近的一个由粗到细的框架[46],但是我们在优化中加入了多阶段的视觉线索,从而更进一步。

3 我们的方法

我们研究从腹部CT扫描分割器官的问题。假设CT图像为大小为wh L的三维卷X,其中Y i = 1表示前景体素,用二进制ground- truth segmentation Y标注。我们工作的目标是生成一个二维的二进制输出卷。作为前景体素在地面真实感和预测中的集合。, Y = {i | Y i = 1}, Z = {i | zi = 1}。分割的准确性由Dice-Sørensen评估系数(DSC): DSC (Y, Z) = 2 | Y Z | | Y | + | |。这个度量落在[0,1]的范围内,1表示完美分割。

3.1 粗到细的分割和缺点

我们从训练三维分段的二维深度网络开始。每个三维体X沿着三个轴进行切片,分别是冠状面、矢状面和轴向视图,以及由X C、w (w = 1,2,…,w)、X S、h (h = 1,2,…,h)和X A,l (l = 1,2,…,l)表示的2dslicesarede -,其中下标C、S和A分别代表冠状面、矢状面和轴向面。在每个轴上,在16层VG- GNet[37]上训练一个单独的2D-FCN[27]。三个FCN模型分别用M C、M S和M A表示。为了防止模型偏向于背景类,我们在训练阶段使用了DSC损失[30]。采用多片分割(将相邻的3个切片作为训练和测试的基本单元)和多轴融合(ma- jority voting over three axis)将伪三维信息融合到分割中。

本文研究的器官(如胰腺)相对较小。在每个2D切片中,前景像素的比例通常小于1.5%。为了防止像FCN[27]这样的深层网络被复杂多变的背景内容所迷惑,建议根据一个估计的边界框将重点放在一个较小的输入区域上。在每个视点上,分别训练两个网络作品进行粗尺度分割和细尺度分割。在检测过程中,首先使用粗尺度网络获取胰腺的大致位置,然后多次执行细尺度网络,迭代更新分割掩模直到收敛。

尽管该方法带来了显著的精度提高,但我们注意到它的缺点是训练和测试策略之间的不协调。也就是说,训练阶段在不支持全局优化的情况下单独处理两个网络,但是测试阶段假设它们可以在迭代过程中相互协作。从另一个角度来看,粗阶段预测的是像素级分割概率图,而精细阶段仅保留了边界框而丢弃了剩余部分,这是一个很大的信息损失。有时候,边界框内的图像区域并不包含足够的空间上下文,因此精细阶段可能会被混淆,甚至产生比粗阶段更低的分割精度。图2显示了一个失败案例。这促使我们将这两个阶段与显著性转换模块连接起来,共同优化它们的参数。

3.2 循环显著性变换网络

按照基线方法,我们为这三个视点中的每一个训练一个单独的模型。在不失一般性的前提下,我们考虑沿轴向视图的二维切片,用X a,l表示。我们的目标是推断出一个具有相同维数的二值分割掩码zal。上下文中的深层神经网络[27][5],这通常是通过首先计算概率地图P、l = f (X, l,θ),f·,θ是深分割网络(FCN贯穿本文)与网络参数θ,然后binarizing P、l到Z l使用固定阈值为0.5,即。, za,l = I[px, l> 0。5]

为了利用概率图辅助分割,我们引入了一个潜在变量p1,l。引入显著性转换模块,利用概率映射生成更新后的输入图像,即, I A,l = xa,l ?g (P、l;η),并使用输入我更新,重新将X l, l。这里g·;η是转换η函数参数,和O表示element-wise产品,即。,转换函数向原始输入图像添加空间权重。这样,分割过程就变成了

这是一个递归神经网络。注意,凸起的转换函数g(·,η)需要可微,这样整个复发可以优化网络的端到端的方式。因为Xal和Pal共享相同的空间维度,我们将g设为一个保留大小的卷积,它允许每个像素所增加的权重由其周围小邻域内的分割概率决定。正如我们将在实验课中展示的(参见图5),所学习的卷积内核能够提取补充信息来帮助下一次迭代。

为了优化Eqn(1),我们将递归网络展开为平面形式(如图3所示)。

注意,原始输入图像X l不会改变,参数θ和η共享所有迭代。在t = 0时,我们直接令I (0) A,l = xa,l。

当分割掩码P (t) A,l (t = 0,1,…,T 1)是可参考的,深度网络的好处考虑从收缩的输入区域,特别是当目标器官非常小。因此,我们定义一个裁剪函数C,将Pal当做参考地图,二值化为Zal,找到覆盖所有激活像素的最小矩形,并在其周围添加一个K像素宽的边距(填充)。我们把K固定为20;我们的算法对这个参数不敏感。

最后注意,I (0) A,l,原始输入(整个2D切片),比经过剪裁的输入I (t) A,l (t >)大得多。我们训练了两个FCN s来处理输入数据中的如此大的差异。第一个模型称为粗尺度分割网络,它只在第一个迭代中使用。第二步,精细尺度的分段网络,负责所有剩余的迭代。我们用θ表示它们的参数C和θF,分别。这两个FCN s是联合优化的。

3.3 训练和测试

训练阶段的目标是最小化Eqn(4)中定义的损失函数L,该函数对所有参数都是可微的。在早期的训练阶段,粗尺度网络不能生成合理的概率图。为了防止精细网络被不准确的输入区域所混淆,我们使用了ground- truth mask Ya,l作为参考图。经过足够多的训练,我们恢复使用P (t) a,l而不是Y a,l。在第4.2节中,我们将看到这种微调策略大大提高了分割精度。

由于GPU内存的限制,在每个包含一个训练样本的mini- batch中,我们将T设为最大整数(不大于5),这样我们就可以将整个框架放入GPU内存中。整个框架工作如图4所示。另外,我们发现设置T≡1也可以产生较高的精度,这表明联合优化带来了较大的改进。

测试阶段按照算法1中描述的流程图进行。与训练阶段有两个小的不同。首先,由于ground-truth分割掩码 Ya,l不可用,概率图P (t) A,l始终作为图像裁剪的参考图。其次,迭代次数不再受GPU内存的限制,中间输出可以中途丢弃。在实际应用中,当两个连续预测的相似度(DSC ?Z (t1) Z (t)= 2pi Z (t1) i Z (t) i pi Z (t 1) i +Z (t) i,达到阈值thr,或执行固定次数(t)的迭代。我们将在第4.4.2节中讨论这些参数。

3.4 讨论

从粗到精的识别是医学影像分析的一个有效思路。例如[46],我们的基线,和用于metosis检测的[4]。我们的方法可以应用于大多数目标,以获得更高的识别性能。

基于注意或递归模型也被广泛用于自然图像分割[6][21][42][24]。我们的方法不同于他们充分利用CT扫描的特殊性质,例如,每个器官出现在一个大致固定的位置,并有固定数量的组成部分。我们的方法可以用于检测器官[17][45]的病变区域,或者检测特定类型的视觉问题,如面部[28]的毛发分割,或者检测输入图像[38]中始终较小的目标。

4 胰腺分割实验

4.1 数据集和评估

我们在NIH胰腺切片数据集[34]上评估了我们的方法,该数据集包含82个经对比增强的腹部CT卷。每次扫描的分辨率为512×512×L,其中L∈[181466]为体长轴上的片数。相邻体素之间的距离在0.5mm到1.0mm之间。

按照标准的交叉验证策略,我们将数据集分成4个固定的折叠,每个折叠包含大约相同数量的样本。我们应用交叉验证,即,在4个子集中有3个子集上训练模型,并在剩下的子集上测试它们。我们测量的分割精度计算Dice-Sørensen系数(DSC)对于每一个样本,并报告所有82例平均和标准偏差。

4.2 不同的设置

我们使用FCN-8s模型[27]对Pas- calVOC[9]进行预训练。我们使用随机权重初始化上采样层,将学习率设置为10 - 4并运行80000次迭代。评估不同的选项,包括在显着性转换中使用不同的内核大小,以及是否使用预测的分割作为参考映射微调模型(参见第3.3节中的描述)。定量结果如表1所示。

正如这个显著性转换模块通过一个确定大小的卷积实现,卷积核的大小决定了一个像素可以用来判断其显著性的范围。一般来说,较大的核尺寸可以提高分割精度(3 3的效果明显好于1 1),但是我们观察到边缘效应:5 5比33的改进是有限的。当我们使用7 7个核时,分割精度略低于55个核。这可能是由于该模块引入了大量参数造成的。另一种增加接受域大小的方法是使用两个具有33个内核的卷积层。这种策略虽然包含较少的参数,但是比使用一个55层更好。但是,我们没有添加更多的层,因为性能饱和而计算成本增加。

如第3.3节所述,我们使用从粗尺度分割掩模裁剪的图像对这些模型进行微调。这是为了将模型调整到测试阶段,在此阶段,ground-truth掩码是未知的,因此需要从精细尺度的分割开始,并能够重新调整粗尺度的分割掩码。我们使用较小的学习率(10 - 6),并运行另外40,000次迭代。该策略不仅报告了0.52%的总体精度提高,而且缓解了过度拟合(见4.4.3节)。

综上所述,所有这些变体产生的准确率- cy都比最先进的(82.37%的[46])高,这表明主要贡献来自我们的循环框架,它支持联合优化。在后面的实验中,我们继承了从本节中学习到的最佳变体,包括在大型多器官数据集中(参见第5节),也就是说,我们使用两个3×3卷积层进行显著性变换,并通过粗尺度分割对模型进行微调。该设置的平均准确率为84.50%,如表2所示。

4.3 与最优秀的结果比较

我们证明我们的方法比基线更有效,即,由粗到精,分两个阶段分别训练。如表2所示,82例患者的平均改善率为2.13±2.67%,考虑到如此高的基线准确度(82.37%已经是最先进的水平),这是一个进步。标准偏差主要由扫描和标记质量的差异导致。学生t检验有统计学意义(p = 3.62×10 - 8)。一个个案研究表明,我们的方法报告的准确性较高的67 / 82的案件,其中最大的优势是+17.60%,最大赤字仅为- 3.85%。我们在第4.4节中分析了改进的来源。

另一个相关的工作是[44],它堆叠两个FCN的分割。我们的工作与它的不同之处在于(i)我们的模型是循环的,它允许精细尺度的分割被迭代地更新,(ii)我们裁剪输入图像以聚焦于突出区域。这两种策略都对分割精度有显著的影响。在数量上,[44]报告的平均准确率为77.89%。我们的方法在粗阶段达到了78.23%,仅经过一次迭代就达到了82.73%,整个测试阶段报告了84.50%。

我们简要地讨论了使用三维网络的优点和缺点。三维网络获取了更丰富的上下文信息,但也需要训练更多的参数。我们的2D方法更有效地利用了3D上下文。在每次迭代结束时,来自三个视图的预测将被融合,因此显著性转换模块将这些信息传递到下一次迭代。我们实现了VNet[30],并为每种情况提供了一个三维地面真实边界框,平均精度为83.18%。没有基本事实,一个滑动窗口的进程是需要的,这是真的很慢,平均5分钟的钛- x帕斯卡GPU。相比之下,我们的方法需要1.3分钟,比基线[46](0.9分钟)慢,但比其他2D方法[34][35](2 3分钟)快。

4.4 诊断

4.4.1 联合优化和多级线索

我们的方法使联合训练成为可能,这将分别改善粗和细阶段。我们表示由ic和if在[46]中训练的两个网络,同样,由jc和jf分别在我们的方法中训练的网络。粗粒期I C为75.74%,J C为78.23%。在精细化阶段,在ic的输出上施加jf得到83.80%,明显高于82.37% (if在ic上),但低于84.50% (jf在jc上)。因此,我们可以得出,规模较小的网络和规模较小的网络都能从联合优化中获益。较强的粗级提供了较好的起点,较强的细级提高了上限。

在图5中,我们可视化地展示了重复的网络工作如何通过合并多阶段的vi- sual线索来帮助分割。这是基线ap- proach[46]的一个失败案例(参见图2),在这种情况下,由于缺少上下文信息,精细分段的工作更加糟糕。有趣的是,在显著性转换中,不同的通道传递互补的信息,即,其中两个聚焦在目标器官上,而剩下的一个给背景区域增加了最多的权重。在不同视点和不同折线训练的模型中也会出现类似的现象。这说明,除了前景,背景和边界也有助于视觉识别[47]。

4.4.2 收敛

我们研究了收敛性,这是判断方法可靠性的一个非常重要的标准。我们选择了平均准确率为84.50%的最佳模型,并在整个测试过程中记录了迭代间DSC,

经过1、2、3、5和10次迭代,这些数字是我们的ap- proach分别为0.9037、0.9677、0.9814、0.9908和0.9964,[46]分别为0.8286、0.9477、0.9661、0.9743和0.9774。我们报告的每一个数字都比基线数据高得多。较好的收敛性为我们提供了设置更严格的终止条件的机会,例如使用thr = 0.99而不是thr = 0.95。

我们注意到[46]也尝试将阈值从0.95提高到0.99,但经过10次迭代,82例中只有3例收敛,平均准确率从82.37%下降到82.28%。相反,在我们的方法中,当阈值从0.95增加到0.99时,82例中有80例收敛(平均迭代5.22次),平均准确率从83.93%提高到84.50%。此外,实现thr = 0.95所需的平均迭代次数也从[46]中的2.89减少到了我们的方法中的2.02。在泰坦- x Pascal GPU上,一次迭代需要0.2分钟,因此使用thr = 0.99在每个测试用例中平均需要1.3分钟。相比之下,[46]平均需要0.9分钟,[35]需要2-3分钟。

4.4.3 过拟合问题

最后,利用oracle信息对测试过程中的过拟合问题进行了研究。我们遵循[46]在每个切片上使用ground-truth边界框,它用于在每次迭代中裁剪输入区域。注意,在每个切片中注释一个边界框是昂贵的,因此不适用于实际的临床应用。本实验旨在探索完美定位下分割网络的上界。

在提供了oracle信息之后,我们最好的模型报告了86.37%,这比不使用oracle信息时的数字(84.50%)要高得多。如果我们不使用粗尺度分割对网络进行微调(见表1),上述数字分别为86.26%和83.68%。也就是说,微调可以防止我们的模型依赖于ground-truth蒙版。它不仅提高了平均精度,而且减轻了过度拟合(我们的模型相对于有oracle信息的模型的缺点降低了0.67%)。

5 多器官分割实验

为了验证这一点,我们收集了一个包含200个CT扫描、11个腹部器官和5条血管的大数据集。这个语料库花了4名全职放射科医生大约3个月的时间来注释。据我们所知,这个数据集比任何公共数据集都要大,包含更多的器官。我们选择了5个最具挑战性的目标,包括胰腺和血管,以及相对容易的两个肾脏。其他容易被忽略的器官,如肝脏。据我们所知,这些器官中有一些以前从未被研究过,但它们在诊断胰腺疾病和早期发现胰腺癌方面很重要。我们将数据集随机划分为4个折叠,以进行交叉验证。每个器官都经过单独的训练和测试。当一个像素被预测为多个器官时,我们选择置信度得分最高的器官。

结果:我们首先注意到,[46]在精加工阶段的准确度有时低于粗加工阶段。这显然是由于迭代过程中的非sat化收敛性造成的,但本质上是上下文信息的丢失和全局优化能量函数的缺失。我们的方法解决了这个问题,并报告了超过5个挑战性器官(肾脏除外)的平均改善4.29%。对于某些器官,例如胆囊,我们没有观察到通过迭代获得显著的准确性。但是我们强调,在这些场景中,我们的粗阶段已经提供了比[46]的精细阶段更高的精度,而我们的精细阶段通过迭代来保持如此高的精度、展示稳定。图6显示了一个示例。

6 结论

这项工作的动机是小器官分割的困难。由于目标通常很小,因此需要关注本地输入区域,但有时由于缺少上下文信息,网络会产生混淆。我们提出了递归显著性变换网络,它具有三个优点。(i)得益于全局能量函数(recur- rent),我们的模型更容易从训练数据推广到测试数据。(ii)通过两个网络的联合优化,两者都得到了各自的改进。(三)结合多阶段视觉线索,获得更准确的评价结果。由于fine阶段不太可能被缺少上下文所混淆,我们还观察到在迭代期间有更好的收敛性。

我们的方法应用于两个数据集的胰腺定位和多器官分割,并明显优于基线(最先进的)。经本组放射科医师证实,这些分割结果有助于计算机辅助临床诊断。

你可能感兴趣的:(【论文翻译】Recurrent Saliency Transformation Network: Incorporating Multi-Stage Visual Cues for Small ...)