Modality-aware Mutual Learning for Multi-modal Medical Image Segmentation
多模态医学图像分割中的模态感知互学习
Published: Jul 2021
MICCAI 2021
论文:https://arxiv.org/abs/2107.09842
代码:https://github.com/YaoZhang93/MAML
摘要:
肝癌是全世界最常见的癌症之一。由于肝脏肿瘤的纹理变化不明显,对比增强计算机断层扫描(CT)成像对肝癌的诊断是有效的。在这篇文章中,作者致力于通过整合多模态CT图像来改进肝脏肿瘤的自动分割。为此,作者提出了一种新的相互学习(ML)策略,用于有效且鲁棒的多模式肝脏肿瘤分割。与现有多模态方法不同的是,多模态方法通过单个模型融合来自不同模态的信息,使用ML,模态特定模型的集合协作学习,并相互教导,以提取不同模态的高级表示之间的特征和共性。该方法不仅具有多模式学习的优势,而且可以通过将知识从现有模式转移到缺失模式来处理缺失模式。此外,作者还提出了一个模态感知(MA)模块,其中模态特定的模型通过注意权重进行互连和校准,以实现自适应信息交换。所提出的模态感知互学习(MAML)方法在大规模临床数据集上的肝脏肿瘤分割中取得了良好的效果。此外,作者还展示了MAML处理肝肿瘤和公共脑肿瘤(BRATS 2018)数据集缺失模式的有效性和稳健性。
问题动机:
肝癌是世界上最常见的癌症之一。CT图像是最初评估肝癌最常用的成像方式。从CT图像中准确测量肝脏肿瘤的状态,包括肿瘤的体积、形状和位置,可协助医生进行肝细胞癌评估和手术计划。然而,肝脏肿瘤在CT容积上的一部分纹理不明显,因此,即使是有经验的放射科医生也很容易忽略。在临床实践中,放射科医生通常通过注射方案增强CT图像,以清晰地观察肝脏肿瘤。当造影剂在血管内通过肝脏时,在肝组织和异常(包括肝肿瘤)之间产生良好的对比。双通道方案中使用的对比增强CT成像包括静脉期和动脉期,并伴有静脉对比延迟。双时相图像具有良好的互补性,有助于更好地诊断肝脏肿瘤。
近年来,深度学习极大地推进了计算机辅助诊断(CAD)领域,尤其是医学图像分割。全卷积神经网络(FCN)超越了手工特征的限制,并通过编码器-解码器架构显著提高了肝脏肿瘤分割的性能。在多模态分割中应用模糊神经网络存在两个主要问题。一个是如何有效地整合来自多模态医学图像的信息。另一个问题是如何处理实践中常见的缺少模式的情况。(提出问题)
多模态信息融合被应用于不同的目的,例如:大脑分割、诊断和三维牙齿重建,也扩展到了CT图像。大多数方法将单模态方法扩展到多流模型,其中每个流用于特定模态。由不同流提取的特定于模态的特征在后续模块中进行融合。值得注意的是,输入的多模态图像应在输入模型之前进行注册。基于编解码结构,多模态特征融合策略可分为四类。第一种是早期融合策略,在输入端集成多模态图像,并沿单一网络联合处理。其次,中间融合策略不是在网络输入端合并两个阶段,而是在相应的编码器中独立处理不同的模式,这些模式共享相同的解码器,用于特征融合和最终分割。第三,后期融合方式使每个相位通过编码器-解码器网络的独立流,并且在每个流的末尾融合学习的特征。最后,一个终极方案引入了编码器-解码器网络之间和内部的超连接,以实现不同模式之间更有效的信息交换。然而,在这些方法中,每个模态的特征被直接组合,因此,不同模态的不同贡献被忽略。(问题)
提出的处理缺失模态的策略包括通过生成模型合成缺失模态或学习模态不变特征空间。然而,合成缺失的模态需要大量的计算,现有的模态不变方法通常在大多数模态缺失时失败。最近的KD-Net通过知识提炼将多模态网络中的知识从单模态网络中转移出来。然而,KD-Net依赖于一个学生模型和一个额外的教师模型来完成对学生模型的单向知识传递,这带来了额外的计算成本,限制了多模态表示。
思路来源:
所以,在本文中,作者提出了一种新的模态感知相互学习(MAML)方法,用于有效和鲁棒的多模态肝脏肿瘤分割。具体而言,作者构建了一组特定于模态的模型来处理多模态数据,其中每个模型用于一种模态。为了在不同的模式之间实现更有效和可解释的信息交换,作者仔细设计了一个模式感知(MA)模块,以可学习的方式自适应地聚合特定于模型的特征。对于每个模型,MA模块生成权重映射,逐像素对特征进行赋值,然后通过加权聚合对特征进行合并,以实现有效的多模态分割。此外,作者设计了一种新的相互学习(ML)策略,ML支持交互式知识转移,以提高模型的泛化能力,避免使用多余的教师模型。使用ML,特定于模态的模型协同解决任务。
作者通过模态内和联合损失训练模型来实现这一点:前者鼓励每个模型学习有区别的模态特定特征,而后者鼓励每个模型相互学习,以保持高层特征之间的共性,以便更好地融合多模态信息。为了充分利用深度学习方法的能力,作者收集了一个具有654个CT体积的大规模临床数据集来评估所提出的方法。实验结果表明,所提出的MAML比其他先进的多模态方法有显著的优势。此外,在临床数据集和public BRATS 2018数据集上,作者展示了MAML在只有一种模式可用的极端情况下处理缺失模式的有效性和鲁棒性。
小结:
MAML采用一组特定于模式的模型,协同自适应地合并动脉和静脉相图像,以实现精确的肝脏肿瘤分割。在这种情况下,它包括两个模态特定模型,用于学习每个模态中的特定特征,以及一个MA模块,用自适于应地探索两个模态之间的相关特征。方法可以很容易地扩展到更多的模式。
特定模态模型:
模态特定模型是用于单模态分割的常见FCN。由于UNet在医学图像分割中已被证明是成功的,MAML采用了功能强大的nnUNet模型,这是一种先进的类似UNet的医学图像分割框架,用于从原始CT图像中提取特征。双相CT体积的输入分别经过每个模型,并从最后一层获得特定相位的高层语义嵌入。值得注意的是,高级语义嵌入共享输入图像的相同形状。不同模态特定模型的输出表示为Fi∈ R^(C×D×H×W),其中C=32是通道数,D,H,W是深度、高度和宽度。
如图1所示,作者提出了通过注意机制的MA模块,以自适应地测量每个阶段的贡献。注意模型广泛用于各种任务,包括语义分割。已经提出了几种注意机制来增强网络的代表性。在这个研究中,作者探索了跨模态注意机制,以选择性地突出嵌入单个模态中的目标特征,从而获得更具辨别力的用于肝脏肿瘤分割的双模态特征。
模态特定模型的输出沿通道连接在一起,通过后续卷积层生成Fdual。虽然Fdual对肝脏肿瘤的动脉和静脉信息进行编码,但在进行肝脏肿瘤分割时不可避免地会引入来自每种模式的冗余噪声。作者建议通过注意机制自适应地测量每个阶段的贡献并对其进行视觉解释,而不是从Fdual获得直接的分割。
图1.框架示意图。输入的多模态CT图像首先由不同模态的特定FCN嵌入。然后,模态感知模块回归注意力图,该注意力图反映了如何实现模态特定特征的有效且可解释的融合。该框架通过内部和连接损失组成的相互学习策略进行训练。
相互学习策略:
模态特定模型集的学习被描述为一个关于背景真实度掩模的体素二值分类误差最小化问题。作者仔细设计了用于多模式肝脏肿瘤分割的ML策略。具体地说,每一个特定于情态的模型作为教师和学生相互作用。因此,静脉模型不仅从静脉期提取肿瘤分割的线索,而且从动脉模型学习,反之亦然。为了实现这一点,作者引入了相位内损耗和联合损耗。前者鼓励每个流学习区分阶段的特定特征,而后者鼓励每个流相互学习,以保持高层特征之间的共性,以便更好地融合多模态信息。
ML的优点在于:
(1)该模型能够在不作任何修改的情况下处理多模态分割和缺失模态,在临床实践中是适用和有效的
(2) 单个模态的每个模型都可以通过学习其他模型隐式地利用双模态信息,从而在缺少其他模态的情况下获得更好的分割结果
(3) 结合每个模态的特点和共性,所有特定于模型的模型的协作可以更好地进行多模态分割。
实验与结果:
数据集和评估指标:
对中国人民解放军总医院获得的增强CT容积进行了对比实验。我们获得654个动脉期和静脉期增强CT容积。所有CT体积均使用西门子扫描仪获取。CT体积的平面大小为512×512,间距为0.56~0.91mm,切片数为67~198,间距为1.5mm。三名经验丰富的肝胆外科临床医生参与了验证,他们在解释CT图像方面具有丰富的经验。为了有效地结合多模式图像,作者利用一种配准方法来获得不同相位图像之间的空间关系。对于数据预处理,截断初始HU值0.5%-99.5%范围内的原始强度值,并对每个原始CT病例进行归一化,使其具有零均值和单位方差。
BraTS 2018数据集包含285名患者的MR扫描,采用四种模式:T1、T2、T1对比增强(T1ce)和Flair。该数据集的目标是分割脑肿瘤的三个子区域:整个肿瘤(WT)、肿瘤核心(TC)和增强肿瘤(ET)。用于定量评估分割的度量包括dice相似系数(Dice)和平均对称表面距离(ASSD)。
实施细节:该框架是在Nvidia Tesla V100 GPU上使用Pytork构建的。网络由Adam优化器进行训练,初始学习率为0.0003。由于GPU内存的限制,每个卷在送入网络之前被分割成大小为128×128×128的补丁。该网络的训练时间为600个epoch,约150小时。由于作者只打算评估网络设计的有效性,因此未采用进一步的后处理策略。
多模态建模的有效性:
为了证明MAML的有效性,作者在临床数据集上分别对MA和ML进行了消融研究,其中五分之一的图像用于测试,其余用于训练。基线是特定于模态模型的输出的直接平均值,表示为“MS+Ensemble”。然后作者应用MA自适应地聚合特定形态的模型,表示为“MS+MA”。最后,结合了MA和ML,表示为“MAML”。
表1:多模式肝肿瘤分割结果。最好的结果用粗体突出显示。
如表1所示,MA在Dice和ASSD方面都优于基线。此外,ML还以显著的优势进一步提高了性能。实验结果证明了MAML在多模式肝脏肿瘤分割中的有效性。然后将MAML与nnUNet和OctopusNet进行比较。前者将两个相位的拼接作为输入,而后者分别对每个相位进行编码并由一个解码器生成分割。表1的结果显示了MAML的出色性能。
可解释性的融合:
MA不仅提供了不同模式的有效融合,而且是一种可解释的模式。作者通过定性地可视化学习到的注意力图来说明可解释性。从图2(左)可以看出,静脉注意图集中在肿瘤边缘,动脉注意图集中在机体。此外,在一定数量的肿瘤表面及邻近肝脏处,常被勾勒出假性包膜。图2(右)静脉注意图聚焦于伪包膜及肿瘤内部出血部分。结果表明,该方法能够获取医学影像的知识,实现可解释的多模式肝肿瘤分割。
图2:Modality-Aware Module生成的注意图能够捕捉到肿瘤的增强部分(左)、出血部分和伪包膜(右)。
处理缺失的方式:
ML策略的一个优点是能够处理多模态分割中缺失的模态。作者考虑一种极端的情况,即只有一种方式可用。在临床数据集上,无论是动脉期还是静脉期的CT图像都可以用于推断程序。将nnUNet (MAML中模式特异性模型的对应物)设置为baseline,并仅在动脉或静脉阶段对其进行训练。
从表2中可以看出,MAML显著优于基线。此外,MAML的动脉和静脉相之间的表现差距明显小于nnUNet,这表明ML在不同模式之间传递知识的出色能力。
表2:肝肿瘤分割模式缺失处理结果。最好的结果用粗体突出显示
作者还比较了MAML和专门处理缺失模式的方法。 仅使用T1ce模式作为输入,对公共BRATS 2018数据集进行了3次交叉验证。KD-Net、U-HVED和HeMIS的Dice结果直接取自论文。从表3中,、观察到作者的方法优于其他三种先进的方法,证明了MAML处理缺失模式的有效性。拟议的框架在目前执行中的局限性在于,它允许以一整套方式或仅以一种方式作为投入。作者希望在今后的工作中对任意数量的缺失模式进行改进。
表3:脑肿瘤分割缺失模式处理结果。HeMIS、U-HVED和KD-Net的结果由论文导出,其中不提供HeMIS和U-HVED结果的标准偏差。使用dice进行评估。
总结:
在本研究中,作者提出了MAML,使有效和稳健的多模态分割。ML实现了模态特定模型的集成,协同学习互补信息。MA以一种自适应和可解释的方式进行更好的多模式肝脏肿瘤分割。结果表明,MAML可以显著提高多模态切分的性能,有效地处理缺失模式,在临床应用中具有重要价值。