医学影像分析:概念、方法、挑战与未来

论文:

Going Deep in Medical Image Analysis:Concepts, Methods, Challenges and Future

1. 介绍 

这篇文章对近年来医学影像学中的DL技术进行了综述,重点介绍了2018年发表的最新方法。根据不同的模式识别任务对这些技术进行分类,并根据基于人体解剖学的分类法对它们进行进一步的分类。通过对文献的分析,我们发现医学影像学任务缺乏适当注释的大数据集,这是利用深度学习进行医学影响分析的基本挑战(除其他挑战外)。本文还介绍了可用于医学成像任务的DL模型训练的公共数据集。考虑到广大医学界对深度学习框架缺乏深入理解,本文还对与DL相关的核心技术概念进行了适当的理解。

剩下的文章安排如下。在第二节中,我们将以直观的方式为医学界呈现深度学习的核心概念。文献综述的主体部分见第3节。我们在第4节中讨论了医学成像的公共数据存储库。在第五节中,我们强调了医学图像分析中的深度学习所面临的主要挑战。第6节讨论了应对这些挑战的建议,作为今后的方向。本文第七部分为结论。

2. 基础概念

介绍了监督学习,无监督学习,强化学习等。并详细介绍了2.1标准人工神经网络、2.2卷积神经网络、2.3循环神经网络,2.4无监督里的自动编码器,生成对抗网络,2.5使用CNNs进行图像分析的最佳实践2.6深度学习编程框架

2.4神经网络在无监督学习中的应用

在前面的小节讨论神经网络的基本概念时,我们假设每个数据样本的标签是可用的,但是这些概念也可以很容易地应用于构造神经网络来建模没有标签的数据。在这里,我们简要讨论允许这样做的主流框架。值得注意的是,本文并不是有意将神经网络描述为“监督的和非监督的”。这是因为神经网络的核心概念通常在有监督的环境中更容易理解。对神经网络的无监督使用仅仅需要在不同的整体框架下采用相同的思想。

2.4.1  自动编码器

自动编码器的主要思想是使用神经网络将输入信号(如图像、特征向量)映射到自身。在这个过程中,我们的目标是学习数据的潜在表示,它对于特定任务来说比原始数据本身更强大。例如,学习到的表示可以比原始数据更好地聚类。理论上,可以在用于有监督神经网络的自动编码器中使用任何类型的网络层。自动编码器的唯一性来自于输出层,其中信号与网络的输入信号相同,而不是分类任务中的标签向量。

将一个信号映射到自身会导致一些琐碎的模型(学习身份映射)。文献中采用了几种技术来排除这种可能性,从而产生了不同种类的自动编码器。例如,不完全自动编码器确保潜在表示的维数远远小于数据维数。在MLP设置中,这可以通过使用网络隐藏层中的少量神经元(与输入信号的维数相比),并使用该层的激活作为潜在表示来实现。正则化自编码器还对神经元连接施加稀疏性,并从其噪声信号中重建原始信号,以确保学习有用的潜在表示,而不是身份映射。变分自编码器和收缩自编码器也是其他流行的自编码器。

2.4.2 生成对抗网络

近年来,生成对抗网络(GANs)在自然图像分析中得到了广泛的应用。GANs可以看作是自动编码器的一种变体,目的是模拟生成数据的分布。GANs由两部分神经网络组成。第一部分称为生成器,它能够生成样本,而另一部分称为鉴别器,它可以将样本分为真样本和假样本。这里,“真实的”样本意味着它实际上来自训练数据。这两个网络本质上是在玩一个游戏,其中的生成器试图通过生成越来越多的真实样本来骗过鉴别器。在此过程中,生成器不断更新其参数以生成更好的样本。生成器欺骗鉴别器的对抗性目标也激发了GANs的名称。在自然图像分析中,GANs已经成功地应用于许多任务,如合成图像中的现实主义归纳、域适应和数据补全。GANs在图像处理任务中的成功应用也为医学图像分析任务开辟了新的方向。

2.5 使用CNNs进行图像分析的最佳实践

卷积神经网络(CNNs)是最近图像分析领域突破的支柱。为了解决这一领域的不同问题,基于CNN的模型通常采用三种不同的方法。(1)利用可用的训练数据集,采用端到端方式,从零开始选择和训练网络架构。(2)一个CNN模型在一些大规模数据集上进行了预训练,然后利用手头的数据对模型进行了进一步的训练。当所考虑问题的训练数据有限时,这种方法更适合。在文献中,它通常被称为迁移学习。(3)使用模型作为可用图像的特征提取器。在这种情况下,训练/测试图像通过网络传递,特定层(或层的组合)的激活被视为图像特征。使用这些特性进行进一步的分析。

计算机视觉文献提供了广泛的研究,以反映在上述三种方式中利用CNNs的最佳实践。我们可以将这些实践的关键总结如下。只有当可用的训练数据量非常大时,如50K图像或更多时,才应该从零开始考虑训练模型。如果不是这样,就使用迁移学习。如果训练数据更小,比如几百张图像,那么最好只使用CNN作为特征提取器。不管采用哪种方法,最好是底层的CNN受到一个已经证明了它在类似任务中的有效性的,模型的启发。对于“从零开始的培训”方法来说尤其如此。在接下来的段落中,我们将参考计算机视觉文献中最近最成功的CNN模型。对于迁移学习,最好使用一个对数据/问题进行预训练的模型,该模型尽可能与手头的数据/问题相似。在使用CNN作为特征提取器的情况下,应该选择具有更强表示能力的网络。通常,在非常大的数据集上训练的更深的网络具有这个属性。从这些模型中提取出来的特征具有识别能力,对分类任务特别有用。

从2012年的AlexNet[23]开始,在过去的七年里,许多复杂的CNN模型被开发出来。尽管AlexNet仍然有用,但它不再被认为是一个最先进的网络。目前仍被频繁使用的一个网络是VGG-16[31],它是由牛津大学的视觉几何小组(VGG)在2014年提出的。VGG-16的后续版本是VGG-19,它使用19层而不是16层的可学习参数。通常,两个版本的表示法是相似的。另一个受欢迎的网络是GoogLeNet[43],也通常被称为“Inception”网络。这个网络使用一种独特类型的层,称为inception 层/块。到目前为止,最初的作者已经引入了四个不同版本的Inception[44]和[45],每个后续版本的表现力(从某个角度看)都略高于其前身。ResNet[22]是另一个流行的网络,它支持具有超过100层模型的深度学习。它基于一个被称为“residual learning”的概念,这个概念目前受到模式识别社区的高度支持,因为它支持非常深入的网络。DenseNet[46]还利用了残差学习的洞察力,实现了与ResNet类似的表示法,但具有更紧凑的网络。

上述CNNs主要用于图像分类任务的训练,而全卷积网络(FCN)[47]和U-Net[48]是最常用的图像分割网络。分析这些网络的架构和超参数设置通常可以为开发新网络提供有用的见解。事实上,其中一些网络(如Inceptionv4/ResNet[45])已经依赖于其他网络(如ResNet[22])的洞察力。同样的做法也会在未来产生流行的网络。我们在第6节中进一步介绍了使用CNNs进行图像分析的最佳实践。

3. 医学图像分析中的三种深度学习方法 

在这一部分中,我们回顾了利用深度学习技术在医学图像分析中的最新成果。我们主要关注2017年12月之后发表的研究论文,同时简要介绍了前几年更具影响力的贡献。为了全面回顾2018年之前的文献,我们推荐以下文章[24]、[25]、[26]。从计算机视觉/机器学习的角度出发,我们首先将现有的文献归类为“模式识别”任务。然后,根据人体解剖区域对与每项任务相关的文献进行进一步的分类。我们文献综述的分类如图6所示。

图6

3.2 分割

在医学图像分析中,深度学习被广泛应用于各种不同的图像分割方法,包括计算机断层扫描(CT)、x射线、正电子发射断层扫描(PET)、超声、磁共振成像(MRI)和光学断层扫描(OCT)等。分割是指通过自动或半自动勾画出图像的边界,将图像分割成不同的有意义的片段(这些片段具有相似的特征)。在医学成像中,这些节段通常与不同的组织类别、病理、器官或其他一些相适应的生物结构[115]。

3.2.1 大脑

与大脑解剖区域相关,Dey等人[116]训练了一个称为CompNet的互补分割网络,用于MRI扫描正常和病理大脑图像中的颅骨剥离。OASIS数据集[117]用于培训目的。在他们的方法中,用于分割的特征是通过一个编码-解码器网络来学习的,该网络是从脑组织及其在大脑外的附属部分的图像训练而来的。将该方法与普通U-Net和稠密U-Net进行了比较[118]。CompNet对正常图像的准确率为98.27%,对病理图像的准确率为97.62%。这些结果优于[118]。

Zaho等[119]提出了一种深度学习技术,将全卷积网络(FCNs)和条件随机域(CRFs)集成在一个组合框架中,实现具有外观和空间一致性的分割,从而实现对脑瘤的分割。他们使用二维图像块和切片训练了3个分割模型。首先使用图像块对FCN进行训练,然后使用图像切片用递归神经网络(CRF- rnn)对CRF进行训练。在这个阶段,FCN的参数是固定的。然后,利用图像切片对FCN和CRF-RNN参数进行联合微调。作者使用了2013年、2015年和2016年多模态脑瘤图像分割挑战(BRATS)提供的MRI图像数据。在他们的工作中,Nair等[120]使用3D CNN方法分割和检测MRI序列中的多发性硬化(MS)病变。Roy等[121]使用voxel-wise Baysian FCN(体素贝叶斯模糊神经网络),通过蒙特卡罗采样对整个大脑进行分割。他们证明了四个数据集的高准确性,即MALC、ADNI-29、candid -13和IBSR-18。Robinson等[122]还提出了一种用于cardiavor MR分割的实时深度学习方法。

3.2.5 腹部

Roth等[146]建立了一个3D-FCN模型,用于3D图像的自动语义分割。该模型以临床CT数据为训练基础,并在所有目标器官上以90%的Dice平均分实现腹部CT的自动多器官分割。Taha[147]等人提出了一种用于肾血管、动脉、静脉和收集系统(输尿管)分割的CNN方法,称为Kid-Net。他们的模型使用3D CT-volume patch进行端到端的训练。作者提出的一个有希望的结论是,他们的方法将肾血管分割时间从几小时缩短到了几分钟。该方法利用特征下采样和上采样来实现更高的分类和定位精度。他们的网络培训方法也处理不平衡的数据,并专注于减少误报。该方法可以在有限的内存开销下实现高分辨率分割。作者将[148]中的发现用于此目的。

Oktay等[149]最近提出了一种“attention gate”模型,可以自动找到不同形状和大小的目标解剖结构。他们实质上将U-Net模型扩展为一个用于胰腺分割的注意力U-Net模型。该模型可用于器官定位和检测任务。他们使用了120张CT图像来训练他们的模型,并使用了30张图像进行测试。总体而言,与现有方法相比,该算法的Dice分增加了2 - 3%,取得了较好的性能。之前,Gibson等人[150]和Heinrich等人[151]、[152]、[153]分别对胰腺分割进行了相关研究。对于未标记X射线图像中的多器官分割(即肺、心、肝、骨),Zhang等人[154]提出了一种任务驱动的生成性对抗网络(TD-GAN)自动化技术。这是一种无监督的端到端医学图像分割方法。他们对合成数字重建射线照片(DRRs)和x光图像上的密集图像到图像网络(DI2I)[46],[155]进行了微调。在多器官分割的另一项研究中,Tong等[156]提出了一种具有形状表示模型的FCN。他们的实验是在体积CT扫描的H&N数据集上进行的。

Yang等[157]采用条件生成对抗网络(cGAN)对人肝脏进行三维CT图像分割。Lessmann等[158]提出了一种基于FCN的CT图像自动vetebra分割方法。他们网络的底层架构受到了U-Net的启发。他们的模型能够处理大小为128×128×128的体素块。在作者所使用的脊柱图像中,分类准确率达到95.8%,分割准确率达到92.1%。Jin等[159]提出了一种基于三维CT图像中去除中心区域的感兴趣体积(VOI)的三维CGAN来识别肺结节。他们对取自LIDC数据集的1000个结节进行了模型训练。提出的CGAN被进一步用于为渐进整体嵌套网络(P-HNN)模型生成数据集[160],显示了改进的分割性能。

4. 数据集

在不过度拟合训练数据集的情况下,端到端的训练模型如何有效地执行医学图像分析任务还有待观察。


CV图像数据库        医学影像数据集

5. 深度学习面临的挑战

1.缺少较精确的标注数据。医学领域对标注的要求更高。

2.样本不平衡。正负样本往往数量差异较大。

3.预测结果置信度信息缺失。医学领域对模型可解释性的要求更高。

6. 未来方向

1.处理小数据问题。一些有用的技术包括使用迁移学习、数据增广、GAN样本生成。

2.结合更多数据来源。医学领域往往不仅仅依靠图像来诊断,结合病历资料的多模态学习也值得关注。

3.关注其他领域的工作。关注能对医学图像分析带来启发的其他计算机视觉、机器学习领域的新工作。

你可能感兴趣的:(医学影像分析:概念、方法、挑战与未来)