A multi-path adaptive fusion network for multimodal brain tumor segmentation

论文:Neurocomputing 2020

数据集:BraTS 2015

1. Introduction

MRI (Magnetic Resonance Imaging, MRI)由于其解剖结构可以可视化检查的特点,成为医生在临床分析大脑结构时的首选[1-3]。MRI有几种模式,脑肿瘤手术主要采用四种不同的模式:T1(自旋-晶格弛豫)、T1C (T1对比)、T2(自旋-自旋弛豫)和FLAIR(流体衰减反转恢复)。每种模式代表不同肿瘤组织的不同反应。MRI对脑肿瘤的分割在放射外科和放疗计划中具有很高的价值。在临床中,人工分割方法已被广泛应用于脑肿瘤的分割。经验丰富的临床医生根据他们的专业知识手工绘制感兴趣的区域。然而,手工分割不仅繁琐、耗时,而且要求高、成本高。它在很大程度上依赖于医生的专业技术和丰富经验。如何对脑肿瘤进行自动、准确、高效的分割已经成为一个迫切的需求。

深度学习方法是指从原始输入图像中提取层次特征的多层神经网络。卷积神经网络[4]在许多计算机视觉任务中被采用[5 - 9,47 - 50],并在语义图像分割方面取得了重大进展[10,44 - 46]。卷积神经网络从输入图像中自动学习低级视觉特征和高级语义特征。此外,它降低了网络模型的复杂性和权值的数量,使训练有深度层的网络成为可能。此外,CNN可以直接采用原始图像作为输入,避免了传统识别算法中复杂的特征提取过程。基于这些优势,深度学习方法在医学图像处理领域被广泛采用[11 - 14,34 - 36,41 - 43]。文献中引入了全卷积网络(FCNs)[15,16],作为cnn的自然扩展,用于解决图像语义分割等像素预测问题。然而,基于FCN的方法通常存在低分辨率预测[17]的局限性。同时,随着网络深度的增加,深度神经网络容易出现梯度消失的问题。

残差网络[18]通过引入残差块来简化深度网络(通常是数百层)的训练。该块采用身份映射和残差映射来解决训练问题。然而,由于ResNet的参数过高,很容易造成大量的开销。此外,Huang[19]引入的DenseNets是由密集的块构建而成的。每个密集的块都是先前特征映射的迭代连接。这个体系结构可以看作是ResNets的扩展,它执行先前特性映射的迭代求和。与resnet相比,DenseNets在参数较少的情况下取得了较好的性能。在[20]中,作者仔细地将DenseNets体系结构扩展为完全卷积网络(FC-DenseNet)进行语义分割,该方法在实验数据上取得了良好的效果。

ResNets和DenseNets解决了“消失梯度”问题。ResNets和DenseNets虽然帮助深度神经网络提取高级语义特征,但它们不能帮助网络有效地结合低级视觉特征。许多研究证明,低级特征对语义切分是有用的,可以显著提高切分准确率。本文将下采样过程中学习到的特征作为低级视觉特征,将上采样过程中学习到的特征作为高级语义特征。在目前最流行的语义分割模型(如FCNs、ResNets)中,采用上采样的方法,通过“跳过连接[15]”从下采样层恢复细粒度信息。高级语义特征通过转置卷积进行上采样,然后与相同维度和通道的低级视觉特征连接。然后在这些融合特征的基础上,生成新的高级语义特征。但是随着网络层数的增加,底层特征向输出层传播的难度越来越大。在上采样过程中,传统的端到端方法只是将低级特征直接连接到高级特征上,而没有考虑融合的方式。也就是说,大多数方法在图像识别中忽视了对整个层次特征的充分利用。

针对这些缺陷,本文提出了一种多路径自适应融合网络。具体来说,在传统的降采样过程中,我们将ResNets中的跳跃式连接的思想应用到密集的块中,从而有效地保留和传播更多的低级视觉特征。所提出的密集块由密集连通层和局部特征残差融合(LFRF)组成。此外,该块实现了连续存储机制,这意味着稠密块的输出有能力直接访问下一个稠密块中的每一层。换句话说,这个块生成一个连续的状态传播。稠密块中的每个卷积层都可以访问所有后续层,传播需要保留的信息。通过将之前所有层的状态与当前的密集块连接,可以发现改进后的密集块可以有效地传播低级视觉特征,并有效地保留这些信息用于最终预测。

此外,该框架的另一个重要改进是在上采样过程中采用多路径自适应融合密集块,自适应调整低层次视觉特征,然后融合高级语义特征。该块体能够有效地利用多层特征生成高分辨率预测。具体来说,在多路径自适应融合密集块中,将代表低级视觉特征的一条输入路径依次通过一个紧密连接的卷积网络,再通过自适应卷积来调整预先训练好的特征权值。另一方面,通过自适应卷积,将代表高级语义特征的另一条路径上采样到与低级视觉特征相同的维度和通道。最后,将调整后的低级视觉特征与高级语义特征串联,生成新的高级语义特征。综上所述,通过采用多径自适应融合密集块(multi-path Adaptive fusion Dense Block)方法,最终将之前降采样过程中产生的高级语义特征和低级视觉特征融合到高分辨率预测中,获得更好的性能。

总的来说,该框架的主要目的是有效传播低级特征,并自适应地结合低级视觉特征和高级语义特征,从而充分利用所有层次特征进行多模态脑肿瘤分割。同时,与其他先进的网络相比,该框架具有更好的性能和更少的参数和更快的分割速度。实验结果表明,与其他方法相比,该方法在多模态脑肿瘤分割中取得了较好的分割效果。此外,本工作是将多层次特征融合的思想应用于脑肿瘤分割的早期尝试之一,具有创新性和贡献性。

2. Related work

目前用于脑肿瘤分割的方法大多基于卷积神经网络(Convolutional Neural Networks, CNN)[21,22,38 - 40]。Shen等人提出了一种新的、多任务、全卷积网络(FCN)结构,用于脑肿瘤的自动分割。该网络通过连接从多模态磁共振图像中提取的层次特征表示及其对称差分图像来提取多层次的上下文信息。Dong等人[22]提出并开发了基于U-Net的全卷积网络来解决脑肿瘤分割问题。他们采用了一种综合的数据增强方案,不仅包含刚性或仿射的变形,还包括亮度和弹性变形的变换。这已经与U-Net结合,合并了跳过架构。网络的宽度和深度可以提高网络的性能。一般来说,深度网络的性能一般要优于浅层网络。一般来说,深度网络的性能一般比浅层网络好。事实上,当更深层次的网络能够开始收敛时,一个退化问题已经暴露出来:随着网络深度的增加,精确度达到饱和(这可能并不奇怪),然后迅速退化[18]。

He等人[18]通过引入一个深度残差学习框架来解决退化问题。残差网旨在通过引入一个残差块来缓解非常深的网络(数百层)的训练,该残差块是两个信号的总和:输入的非线性变换和它的身份映射。身份映射是通过 "快捷连接[23-25]"来实现的。ResNets在许多具有挑战性的图像识别、定位和检测任务上取得了令人印象深刻的、破纪录的性能,如ImageNet和COCO物体检测[18]。VoxResNet由[26]提出,将低级别的图像外观特征、隐含的形状信息和高级别的上下文整合在一起,以提高体积分割的性能。在具有挑战性的磁共振(MR)图像的大脑分割基准上进行的大量实验显示了良好的性能。但由于每层都有自己的权重,ResNets的参数数量大大增加。RefineNet[17]是一个通用的多路径细化网络,它明确地利用沿下采样过程的所有信息来实现高分辨率的预测,它使用长距离的剩余连接。通过这种方式,捕捉高层次语义特征的较深层可以直接使用来自早期卷积的细粒度特征进行细化。RefineNet的各个组成部分采用了遵循身份映射思维的残差连接,这使得有效的端到端训练成为可能。这种方法可以提高图像分割的性能,但作者在ResNets上增加的多路径细化网络将进一步提高ResNets的参数。

DenseNets[19]大大减少了参数的数量。DenseNets的一个优点是网络更窄,参数更少,这在很大程度上是由于密集块的设计。密集块中每个卷积层的特征图的数量很小(小于100)。同时,这种连接方式使得特征和梯度的传输更加有效,网络更容易训练。每一层都可以直接访问损失函数的梯度和原始输入信号,从而实现隐式深度监督[27]。FC-DenseNet[20]将DenseNets架构扩展到全卷积网络,用于语义分割。到目前为止,还没有人将DenseNets用于医学图像分割。

你可能感兴趣的:(A multi-path adaptive fusion network for multimodal brain tumor segmentation)