https://arxiv.org/abs/2207.14191
医学图像分割是许多图像引导的临床方法中的基本和关键步骤。最近基于深度学习的分割方法的成功通常依赖于大量的标记数据,特别是在医学成像领域,只有专家才能提供可靠和准确的注释,这一点特别困难和昂贵。 半监督学习已经成为一种有吸引力的策略,并被广泛地应用于医学图像分割任务中,在有限的注释下训练深度模型。在本文中,我们全面回顾了最近提出的用于医学图像分割的半监督学习方法,并总结了技术上的创新和经验上的结果。此外,我们还分析和讨论了现有方法的局限性和几个未解决的问题。我们希望这篇综述能够激励研究界探索解决这一挑战的方法,并进一步促进医学图像分割领域的发展。
医学图像分割的目的是通过将每个像素标记为某一类,从原始图像中划出感兴趣的解剖结构,如器官和肿瘤,这是许多临床方法的基本和重要步骤,如计算机辅助诊断、治疗计划和放射治疗。 准确的分割可以提供可靠的体积和形状信息,从而协助进一步的临床应用,如疾病诊断和定量分析。 根据MICCAI21的论文题目词云,我们可以观察到"分割"是最活跃的研究主题之一,在医学图像分析界的频率最高。
自2015年引入U-Net用于医学图像分割以来,人们提出了许多编码器-解码器架构的变体,通过重新设计跳过连接、加入残差/密集卷积块、注意力机制等来改进它。Isensee等人提出了nnU-Net,以自动适应训练策略和网络架构,从而实现基于编码器-解码器架构的医学图像分割。受最近在自然语言处理领域Transfromer架构成功的启发,许多基于Transformer的方法被提出并应用于医学图像分割中。 尽管这些架构上的进步已经显示出令人鼓舞的结果,并在许多医学图像分割任务中取得了最先进的表现,但这些方法仍然需要相对大量的高质量注释数据进行训练,并比以往任何时候都需要。 然而,要获得大规模的仔细标记的数据集来训练分割模型是不切实际的,尤其是对于医学影像来说,要获得良好的注释数据是很难的,也很昂贵,只有专家才能提供可靠和准确的注释。 此外,许多常用的医学图像,如计算机断层扫描(CT)和磁共振成像(MRI)扫描,都是三维体数据,专家需要从体中逐片划出目标。与二维图像相比,这进一步增加了人工注释的负担。
为了减轻人工标注的负担以应对这些挑战,人们在医学图像分割任务的标注高效深度学习方法方面做了大量的努力,通过标签生成、数据增强、利用外部相关的标注数据集以及利用半监督学习的未标注数据来扩大训练数据。 在这些方法中,半监督分割是一种更实用的方法,它鼓励分割模型利用未标记的数据,而未标记的数据更容易获得,结合有限的标记数据进行训练,这对现实世界的临床应用有很大影响。 根据图中的统计,近年来,半监督医学图像分割得到了医学影像和计算机视觉界越来越多的关注。然而,如果没有专家审查的注释,如何有效地利用这些未标记数据的有用信息,仍然是一个开放和具有挑战性的问题。
在本文中,我们对最近的半监督医学图像分割解决方案进行了全面回顾,并总结了技术上的创新和经验上的成果。此外,我们分析和讨论了现有方法的局限性和几个未解决的问题。 我们希望这篇综述能够激发研究界对这一挑战的解决方案的探索,并进一步促进医学图像分割领域的发展。
半监督学习的目的是利用未标记的数据和标记的数据来训练更高性能的分割模型。为了便于以下章节的描述,我们将半监督学习任务表述如下。
给定训练集 D \mathcal{D} D, D L = { x i l , y i } i = 1 M \mathcal{D}_{L} = \{x_{i}^{l}, y_{i}\}_{i=1}^{M} DL={xil,yi}i=1M表示有 M M M个标注样本的已标记集。 x i l x_{i}^{l} xil和 x i u x_{i}^{u} xiu表示输入图像, y i y_{i} yi表示对应的已标注数据的GT。一般来说, D L \mathcal{D}_{L} DL是整个数据集 D \mathcal{D} D的一个相对较小的子集,也就是 M ≪ N M \ll N M≪N。对于半监督分割设置,我们的目标是通过 D L \mathcal{D}_{L} DL和 D U \mathcal{D}_{U} DU的组合建立一个数据高效的深度学习模型,使其性能与完全标记数据集上训练的最优模型相当。
根据测试数据在训练过程中是否完全可用,半监督学习可以分为两种设置:直推式学习(Transductive Learning)和归纳式学习(Inductive Learning)。对于直推式学习,假设训练过程中的未标记样本正是要预测的数据(即测试集),模型应该泛化至这些未标记样本上;而对于归纳式学习,模型将被应用于新的未见过的数据。
对于半监督学习来说,一个基本的前提条件是,数据分布应该在一些假设下,数据的结构保持不变。否则,不可能从有限的训练集泛化到无限的隐形集,半监督学习可能不会改善监督学习,甚至可能因为误导推论而降低预测精度。半监督学习的三个基本假设包括。
The Smoothness Assumption 如果两个样本 x 1 x_{1} x1和 x 2 x_{2} x2是相似的(例如在同一个聚类中),它们相应的输出 y 1 y_{1} y1和 y 2 y_{2} y2也应该是相似的(例如属于同一个类别),反之亦然。
The Cluster Assumption 这个假设指的是,如果单一类别中的样本倾向于形成一个聚类,那么当数据点可以通过不经过任何低密度区域的短曲线连接时,它们就属于同一类别聚类。因此,学习算法可以使用大量的未标记数据来调整分类边界。
The Manifold Assumption 如果两个样本 x 1 x_{1} x1和 x 2 x_{2} x2位于低维流形的局部邻域,它们就有相似的类标签。这一假设反映了决策边界的局部平滑性。
U-Net已被广泛应用于各种医学图像分割任务中。U-Net的结构由一个带有下采样层的编码器和一个带有上采样层的解码器组成,不同尺度的特征通过下采样层和相应的上采样层的特征图进行连接融合。自U-Net问世以来,人们提出了许多编码器-解码器结构的变种来改进它。具体来说,nnU-Net被提出,根据U-Net的编码器-解码器结构,自动配置预处理、网络结构、训练、推理和后处理,用于医学图像分割的特定数据集。
在本节中,我们主要将这些半监督的医学图像分割方法分为以下三种策略。
Semi-Supervised Learning with Pseudo Labels 带有伪标签的半监督学习,即未标记的图像首先通过分割模型预测和伪标签,然后将其作为新的样本进行进一步训练。
Semi-Supervised Learning with Unsupervised Regularization未标记的图像与标记的数据联合使用,以训练一个具有无监督的正则化的分割模型。主要包含一致性学习、共同训练、对抗性学习、熵最小化等思想。
Semi-Supervised Learning with Knowledge Priors 其中未标记的图像被用来使模型具有像目标的形状和位置这样的知识先验,以提高医学图像分割的表示能力。
为了利用未标记的数据,一种直接而直观的方法是为未标记的图像分配伪标签,然后将伪标记的图像与标记的图像结合起来使用,以更新分割模型。伪标记通常以迭代的方式实现,因此模型可以迭代地提高伪注释的质量。下表介绍了这种策略的整体工作流程:
首先,使用有限的标记数据训练一个初始分割模型。然后将初始分割模型应用于未标记的数据,以生成伪分割mask。之后,标记的数据集与伪标记的数据集合并,以更新初始模型。训练过程在上面介绍的两个步骤之间交替进行,直到预定的迭代数。
在这个半监督学习的策略中,这些方法主要在模型初始化、生成伪标签以及如何处理伪标签的噪声方面有所不同。一个训练不足的分割模型在有限的标记数据下的输出是有噪声的。如果直接使用这些有噪声的输出作为伪标签,可能会使训练过程不稳定,并损害性能。为了更好地利用具有潜在噪声的伪标签,人们提出了很多方法。在本节中,我们将从两个方面解释伪标签的生成:直接或间接生成。
直接生成的伪标签大多是以在线方式基于训练好的模型的预测。一个常见的方法是选择一个最大预测概率大于设定阈值的未标记像素。然而,预测可能是有噪声的,对所有样本设置相同的阈值是不合理的。一般来说,具有较高置信度的伪标签通常更有效。因此,人们提出了许多置信度或不确定性感知的方法来生成更稳定可靠的伪标签。Yao等人提出了一个置信度感知的交叉伪监督网络,以提高来自未知分布的无标签图像的伪标签质量。原始图像和变换后的图像的预测的KL散度被计算为用于提议的置信度感知交叉损失的方差。Wang等人增加了一个信任模块来重新评估模型输出的伪标签,并设置一个阈值来选择高置信度值。除了添加置信度感知模块,还有很多其他方法来提高伪标签的质量。Li等人提出了一种自我组合的策略,通过指数移动平均来建立最新的预测,从而避免噪声和不稳定的伪标签。形态学方法和机器学习方法可用于细化伪标签。通过简单线性迭代聚类(SLIC)算法计算的超像素图被引入到细化伪标签中。这种算法适用于对形状不规则的目标进行分割。一些算法增加了额外的网络来进一步整顿伪标签。Shi等人提出了保守-激进网络。保守的对象设置倾向于将像素预测为背景,而激进的对象设置则倾向于将像素预测为前景。在预测未标记的数据时,某些区域是保守和激进设置之间的重叠部分,并被用作伪标签。Zhang等人通过另一个错误分割网络对未标记数据的分割结果进行修正,然后是主分割网络。分割错误被分为类内不一致或类间相似性问题。这种方法可适用于不同的分割模型和任务。
间接生成的伪标签大多是基于标签传播(如,原型学习Prototype Learning,最近邻匹配)。然而,间接生成的方式很耗时,而且对内存的消耗要求较高,大多是以离线方式进行。Han等人基于原型学习从标记的数据中生成类表示。通过计算无标签图像的特征向量与每个类别表征之间的距离,然后进行一系列形态学操作,就可以生成高质量的伪标签。然而,这种基于原型学习的标签传播策略要求高质量和有代表性的特征提取。另一种常见的标签传播方法可以预设整个数据集的数据点之间的关系。Wang等人提出了邻居匹配法,根据与相邻标签数据的嵌入相似度,以权重为基础生成伪标签。通过转移语义来生成伪标签,这些伪标签与特征空间中的未标注数据有最好的契合度,如图所示。通过这种方式,可以避免基于网络预测的伪标签生成方法中通常存在的确认偏差。
伴随着增加更多的高置信度的伪标签,伪标签鼓励类之间的低密度分离。伪标签的质量是伪标签策略的主要制约因素。当模型过度适应小的标签数据并有确认偏差时,它就无法纠正其错误。错误的预测会被迅速放大,从而产生自信但错误的伪标签。因此,如何选择将在下一个训练过程中加入的伪标签,以及重复多少次迭代,都需要进一步考虑。
与生成伪标签并以迭代方式更新分割模型不同,半监督医学图像分割的一些最新进展集中在将未标记的数据纳入训练程序,通过生成监督信号与无监督的正则化。下表介绍了这一策略的整体工作流程。无监督损失函数和正则化条款的不同选择导致了不同的半监督模型。一般来说,无监督正则化可以被表述为三个子类别:一致性学习、共同训练和熵最小化。
Unsupervised Regularization with Consistency Learning 对于无监督的正则化,一致性学习被广泛地应用,在不同的扰动下对输入图像的预测执行不变性,并将决策边界推到低密度区域,基于扰动不应改变模型的输出的假设。两个对象之间的一致性可以通过KL散度、均方误差(MSE)、JS发散等来计算。这种基于一致性学习的方法由于其简单性,在半监督的医学图像分割任务中很受欢迎。
扰动有很多,可以分为输入扰动和特征图扰动。扰动应该对相应的任务有意义,而且扰动对分割性能的影响有一个上限,当增加更多的扰动时,分割性能不会进一步提高。有一些常用的输入扰动,如高斯噪声、高斯模糊、随机旋转、缩放和对比度变化等,鼓励分割网络对未标记的数据进行变换一致的处理,Bortsova等人探讨了对弹性形变的等价性,并鼓励收到不同变换图像的两个相同分支的预测之间的分割一致性。Huang等人将切口内容损失和切片错位作为输入扰动。 另一个常见的一致性是Mix-up一致性,它鼓励两个数据的插值分割与这些数据的插值分割结果一致。除了输入上的干扰,也有很多研究关注特征图层面的干扰。Zheng等人提出在教师模型的参数计算中加入随机噪声。Xu 等人提出通过设计不同的网络结构进行形态学特征的扰动,如图所示,Atrous卷积可以放大前景特征,而跳过连接会缩小前景特征。Li等人在七个额外的解码器中加入七种特征扰动,并要求这七个预测与主解码器一致。这些特征层面的扰动是特征噪声、特征丢弃、对象掩蔽、上下文掩蔽、引导性切除、中间插值和随机丢弃。还有一些研究是在输入和特征图层面上应用扰动的。Xu等人提出了一种新的阴影一致性,它包含阴影增强和阴影剔除来模拟医学图像中的低图像质量和阴影伪影。具体来说,阴影增强是通过向输入图像添加模拟的阴影伪影来进行扰动,而阴影剔除将根据阴影伪影的先验知识丢弃神经节点,这是一个直接作用于特征图的干扰。需要注意的是,如果扰动太弱,可能会导致懒惰的学生现象,但大的扰动可能会混淆老师和学生,导致低性能。Shu等人增加了一个用于进一步知识提炼的过渡性监测器,以缩小学生模型和教师模型之间的语义差距。
除了添加扰动之外,还有一些不同的一致性学习方法。例如,Sajjadi等人提出了 Π \Pi Π模型来为有标签和无标签的数据创建两个随机的样本。在训练过程中,该模型期望同一未标记样本的输出在不同的随机扰动下前向传播两次,以达到一致。Samuli等人提出了时间上的集合策略,将未标注数据的指数移动平均(EMA)预测作为一致性目标。 然而,在训练过程中维护EMA预测是一个沉重的负担。为了解决这个问题,Tarvainen等人提出使用教师模型与学生模型的EMA权重进行训练,并在学生和教师模型之间执行来自扰动输入的预测的一致性。Zeng等人改进了教师模型中的EMA加权方式。他们增加了一个反馈信号,即学生在已标注集上的表现,通过这个反馈信号,教师模型可以通过梯度下降算法自主地、有目的地更新。然而,由于标注数据的数量有限,教师模型的预测在某些地方可能是错误的,并可能混淆学生模型。因此,在训练过程中,利用不确定性或置信度估计来学习更有意义和可靠的目标。Yu等人通过Monte Carlo dropout用不确定性估计策略扩展了Mean Teacher范式。Xie等人增加了一个置信度感知模块,在标注数据的指导下学习模型置信度。Luo等人使用金字塔预测在一个正向通道中计算不确定性,并提出了一个多级不确定性整顿的金字塔一致性正则化。Fang等人附加一个误差估计网络来预测教师预测的CE损失图。然后在低CE损失的像素上计算一致性损失。Zhao等人引入了跨级别的一致性约束,该约束在块和全图之间计算。除了直接鼓励网络分割结果的一致性外,还提出了生成性一致性,即通过生成网络从分割网络的预测中重建医学图像。Xu等人提出了轮廓一致性,并利用包含一系列谐波的傅里叶序列作为椭圆描述符。通过最小化学生和教师分支之间参数的L2距离,该模型具备了形状感知。然而,这种方法需要选择不同的最大谐波数来分割具有不同不规则性的目标。Chen等人提出了多级一致性损失,在一个额外的判别器中计算多尺度特征之间的相似性,其中输入是通过将未标记的输入图像与预测的分割概率图相乘来代替分割概率图的分割区域。Hu等人提出了注意力引导的一致性,鼓励学生模型和教师模型的注意力图保持一致。每张图片都包含相同的类别对象,因此不同的图片在特征空间中共享相似的语义。Xie等人引入了对内和对间一致性来增强特征图。首先计算特征空间中一对图像之间的像素级关系,得到突出具有相同语义但在不同图像上的区域的注意图。然后,多个注意力图被考虑到,以过滤低置信度的区域,然后与原始特征图合并以提高其表示能力。Liu等人提出了对比性一致性,通过分类网络产生的前景和背景类向量,鼓励分割输出在类水平上保持一致。Xu等人提出了循环原型一致性学习(CPCL)框架,该框架包含一个有标签到无标签(L2U)的原型前进过程和一个无标签到有标签(U2L)的后退过程。L2U前向一致性可以将真实的标签监督信号转移到无标签数据上,而U2L后向一致性则可以直接使用标签数据来指导无标签数据的学习,从而将 "无监督"一致性变成"有监督"一致性。
除了利用数据层面的扰动进行一致性学习外,一些方法侧重于通过添加辅助任务来利用几何信息建立任务层面的正则化。Li等人开发了一个多任务网络来建立具有对抗性正则化的形状感知约束。Liu等人提出了一个形状感知的多任务框架,其中包括分割、有符号距离图预测和器官轮廓预测。Luo等人将水平集函数回归任务与分割任务相结合,形成了半监督学习的双任务一致性。Zhang等人提出了双任务相互学习框架,鼓励双任务网络从对方身上探索有用的知识。基于双任务框架,Zhang等人利用分割任务和回归任务进行自我组装,并利用估计的不确定性来指导相互一致性学习,获得进一步的性能提升。Chen等人提出了一个双任务一致性联合学习框架,鼓励分割结果与带符号的距离图预测的转变相一致。Wang等人将多任务学习注入到Mean Teacher架构中,该架构包含了分割任务、重建任务和SDF预测任务,因此模型可以考虑到数据、模型和任务层面的一致性。此外,他们提出了一个不确定性加权整合(UWI)的策略来估计所有任务的不确定性,并根据这些任务制定一个三重不确定性来指导学生模型从教师那里学习可靠的信息。
Unsupervised Regularization with Co-Training 协同训练框架假设每个数据有两个不同的视图,每个视图都有足够的信息,可以独立给出预测。一个视图对另一个视图是多余的,鼓励模型对这两个视图有一致的预测。它首先在已标记的数据上为每个视图学习一个单独的分割模型,然后将两个模型在未标记的数据上的预测结果逐渐添加到训练集中,继续进行训练。需要注意的是,与自训练方法不同,协同训练方法是将一个视图的伪标签添加到其他视图的训练集中。而协同训练和一致性学习的区别在于,未标记数据的伪标签将作为监督信号来训练其他模型,而一致性学习则鼓励不同扰动的输出保持一致。也就是说,协同训练中的所有模型都将通过梯度下降算法进行更新,而一致性学习中只有一个主要模型通过梯度下降算法进行更新。
协同训练的核心是如何构建两个(或多个)近似于代表足够独立观点的深度模型。这些方法主要包括使用不同的数据来源,采用不同的网络架构和使用特殊的训练方法来获得不同的深度模型。对于医学图像,数据可能来自不同的模式或医疗中心,导致不同的分布。Zhu等人提出了一个用于非配对多模态学习的联合训练框架。这个框架包含了两个分割网络和两个跨越两种模式的图像翻译网络。他们利用一种模式的伪标签(来自未标记的数据)或标签(来自已标记的数据)来训练图像转换后另一种模式的分割网络。一方面,它增加了监督的信号。另一方面,它增加了模态水平的一致性。Chen等人利用未配对的多模态图像,在解剖和语义信息上实现了跨模态的一致性。协作和互补的多模态可以鼓励更好的独立于模态的表征学习。Liu等人提出了一个用于领域自适应医学图像分割的协同训练框架。该框架包含两个分割器,分别用于半监督分割任务(标记的和未标记的目标域数据作为输入)和无监督领域适应任务(标记的源域数据和未标记的目标域数据作为输入)。由于不同的模型通常会提取不同的表征,联合训练框架中的不同模型可以专注于不同的观点。除了使用CNN作为骨干,还有一些基于Transformer的骨干。如图所示,Luo等人在CNN和Transformer之间进行交叉教学,隐含着鼓励不同网络之间的一致性和互补性。Liu等人将CNN块和Swin Transformer块结合起来作为主干。Xiao等儿呢增加了另一个基于Transformer架构的教师模型。教师模型通过一致性正则化相互沟通,指导学生的学习过程。然而,当只有一个数据源可用时,训练两个(或更多)相同的网络可能会导致神经网络崩溃,因为这些模型的预测被鼓励为相似。以生成对抗性例子作为另一种观点。Xia等人使用三维医学图像的冠状、矢状和轴状视图作为输入层面的视图差异,使用具有二维初始化的不对称三维核作为特征层面的视图差异。除此以外,还可以使用特殊的训练方法来训练多样化的深度模型。例如,Chen等人使用输出涂抹来生成不同的标记数据集,以初始化多样化模型。为了在随后的训练过程中保持多样性,在特定回合中使用生成的数据集对模块进行微调。
除了构建足够独立的多样化模型外,另一个研究方向是在随后的训练过程中选择哪个伪标签。虽然在整个网络中鼓励一致的预测,但它们可能包含噪音,导致不稳定的训练过程。通过贝叶斯的不确定性估计,提出了一个不确定性感知的协同训练框架。Wang等人开发了一个自定进度和自一致的协同训练框架。自定进度的策略可以鼓励网络通过最小化广义的JS散度将较容易分割的区域的知识逐渐转移到较难分割的区域。另一种缓解噪声伪标签影响的方法是通过指数混合衰减来调整整个训练过程中来自标签和伪标签的监督信号的贡献率。
Unsupervised Regularization with Adversarial Learning 除了一致性学习,一些研究使用对抗性方法来鼓励未标记图像的分割更接近标记图像的分割。这些方法总是包含一个区分器来区分来自标记注释或未标记预测的输入,Zhang等人引入对抗性学习,鼓励未标注数据的分割输出与标注数据的注释相似。Chen等人在分割网络之后增加了一个判别器,用来区分输入的有符号距离图是来自于标注的图像还是未标注的图像。Peiris等人在分割结构中加入了一个批评者网络,该网络可以通过区分预测掩码和地面真实掩码来执行最小-最大游戏。实验表明,它可以使预测掩模的边界更加清晰。鉴别器还可以用来生成像素级的置信图,并选择用于一致性学习的可信赖的像素预测值。Wu等人增加了两个判别器,用于预测置信度图和区分有标签或无标签数据的分割结果。通过添加另一个辅助判别器,可以缓解由于标注图像有限而导致的主要判别器训练不足的问题。Li等人采用U型网作为编码器,条件GAN作为解码器。通过从编码器的预测结果中重构图像,编码器可以估计出分割图的分布。Nie等人提出基于置信度网络的置信度图和基于区域注意力的半监督学习策略,利用未标记的数据进行训练,对分割网络进行对抗性训练。Hou等人在半监督框架中加入了一个泄露的GAN,它可以通过泄露生成器的信息来污染判别器,以达到更适度的世代。Chaitanya等人提出了一种新的任务驱动的数据增强方法来合成新的训练实例,其中生成网络明确地应用变形场和额外的强度掩码来模拟形状和强度变化。然而,对抗性训练在收敛性方面可能具有挑战性。
Unsupervised Regularization with Entropy Minimization 基于半监督学习中的假设,即决策边界应该位于低密度区域,熵最小化鼓励模型在未标记的数据上输出低熵预测,避免了类的重叠。因此,半监督学习算法通常与熵值最小化相结合。增加了一个损失项来最小化模型在无标签数据上的预测熵。
Wu等人在学生分支中加入熵最小化技术。Berthelot等人提出Mixmatch技术,在无标签数据的目标分布上使用锐化函数来最小化熵。通过调整这个分类分布的"温度"进行锐化的方法如下。
降低温度可以促使模型产生更低熵的预测。然而,超参数需要仔细设置,不同的样本可能有不同的 T T T,所以 提出了一种自适应锐化,可以根据模型预测的不确定性对每个样本自适应地调整T。引入了多类问题的互斥损失,明确地强制预测为互斥,鼓励决策边界位于不同类数据对应的流形之间的低密度空间,与中的熵最小化相比,在目标检测任务中具有更好的性能。
熵最小化的另一个应用是在伪标签中使用硬标签。由于argmax操作应用于一个概率分布可以产生一个有效的"一击即中"的低熵(即高置信度)分布,熵最小化和伪标签都鼓励决策边界通过低密度区域。因此,在伪标签中使用硬标签的策略与熵最小化(Entropy Minimization)密切相关 。然而,一个倾向于快速过拟合的高容量模型可以给出高置信度的预测,而这些预测的熵值也很低。因此,熵最小化在某些情况下不起作用 。然而,当与其他半监督学习策略相结合时,熵最小化可能会提高性能。
先验知识是指学习者在学习新信息之前已经拥有的信息,有时对处理新任务很有帮助。与非医学图像相比,医学图像有很多解剖学上的先验,如器官的形状和位置,在深度学习中加入解剖学上的先验知识可以提高医学图像分割的性能。 一些半监督的算法利用知识先验来提高新任务的表示能力。
自监督预训练是对先验知识的一种应用。由于在半监督学习中存在大量未标记的数据,模型可以通过有效的代理任务预训练来学习有用的表征和视觉先验。Huang等人增加了一个来自对应方的重建预训练,以避免网络在冷启动阶段被随机初始化。Huang等人通过重建代理任务对自动编码器进行预训练,然后将从中提取的深层先验解剖学(DPA)特征嵌入,用于分割薄的结构和大的解剖学间的变化,如图所示。Hu等人在半监督框架中引入了自我监督的图像级和监督的像素级对比预训练。Wang等人使用超像素将图像分成若干区域,并基于对比学习学习了器官内和器官间的表征,然后用该模型来初始化半监督框架,这大大提高了性能。除了自我监督的预训练外,代理任务和对比性损失也可以被用于半监督的训练过程中作为正则化。Yang等人在半监督训练过程中引入了自监督的拼图任务,以获得更好的特征表示。Zhang等人提出了一个具有共享编码器和两个独立解码器的双任务网络,用于分割和病变区域的画像。Peng等人将半监督学习与自定进度的对比学习结合起来,可以根据元标签为每个阳性对的具体损失分配一个重要性权重,这与无监督的对比损失不同。Wu等人增加了补丁和像素级的密集对比损失,以对齐教师和学生模型的特征。他们还在学生分支中加入了熵最小化技术。Zhao等人在联合训练框架中引入了多尺度多视角全局-局部对比学习。
除了自监督学习,以下是半监督学习的其他先验知识的应用。Atlas map,表示物体出现在某个位置的概率,在医学图像分割中被广泛应用。目标需要被注册到一个参考的体上。然后,通过对所有被注释的体进行变形后的手动掩模的平均化,可以生成概率图集(PA)。Zheng等人通过对所有注释体登记后的手动分割的肝脏掩模进行平均化来计算器官的PA,并预设了图集值接近0.5的难样本。Huang等人利用PA给无标签数据分割的像素级置信度来选择可靠的像素结果。从图中可以看出,当PA和 s o u t p u t s_{output} soutput都接近 s m a s k s_{mask} smask,即0或1时,置信度由红到蓝递减,置信度更高。该方法考虑了先验的形状和位置信息,但可能不适合具有较大位置差异的目标。Li等人在半监督学习范式中,将上下文细化整合到基于可变形注册的分割过程中,只利用图集图像和少量的标记数据。
医学成像中经常遇到的一个障碍是,在现实世界的应用中,获得的数据和注释可能难以满足假设,从而影响半监督学习的性能。除了上述这些半监督分割方法的方法学发展,我们还汇编了现实世界应用中一些不同的关注点。
由于在半监督学习中通常有大量的未标注数据,标注数据和未标注数据的分布可能会出现错位。为了更好地利用来自不同分布或医疗中心的大规模数据,人们提出了一些方法来处理分布错位的问题。Zhang等人试图通过最小化有标签的数据分布和无标签的数据分布之间的L2距离来对齐它们的特征图。同时,为了保持对有标签数据和无标签数据分割的判别力,通过比较来自地面真实标签掩码和学生输入的特征图中的非局部语义关系矩阵,进一步获得分割监督。另一项工作提出了自适应分层双一致性来使用来自不同中心的数据集,它通过对抗性学习映射网络来对齐分布,并将一致性学习扩展到跨域分割的内部和内部一致性。另一个使用多中心数据的想法是通过元学习。为每个医疗中心制定了一个不同的任务,例如为有标记数据的中心执行分割任务,而为有未标记数据的中心执行对比性学习任务。
半监督学习中的另一个问题是如何融合不同的监督信号,以实现标签高效的半监督学习。由于现有的公共成像数据集通常对不同的任务有不同的注释,如CT图像单一标记的肿瘤或部分标记的器官。Zhang等人提出了一种双路径半监督条件nnU-Net,可以在部分标记的数据集、危险器官的分割或肿瘤的联合上进行训练。另一种情况是整合不同级别的监督信号。提出了半监督框架下的多标签深度监督,它利用了图像级、盒级和像素级的注释。如果只存在图像级或盒子级的标签,伪标签将被限制在其中包含的类别或位于粗略的区域内。除此以外,从教师模型中产生的嘈杂的伪标签被使用最大池化来平滑,以匹配来自解码器的不同级别的预测,以实现多级别的一致性。
分割中另一个常见的问题是类的不平衡。在半监督学习中,类的不平衡和有限的标记数据可能会进一步带来确认偏差和不确定性不平衡问题。Lin等人提出了一种双重不确定性感知的抽样策略,以对低置信度的像素类别进行抽样,用于无监督的一致性学习。Wang等人在交叉熵损失中加入了一个重新加权模块,该模块是由标签训练集和伪标签训练集中的像素类别比例计算出来的,用于处理类别不平衡的问题。
此外,以前的半监督框架大多是判别性模型,标记的数据只在早期训练阶段使用,模型可能倾向于对标记的数据进行过拟合。Wang等人提出了一个用于半监督性分割的贝叶斯深度学习框架。这样一来,有标签和无标签的数据都被用来估计联合分布,这就缓解了只用有标签的数据进行早期训练所带来的潜在过拟合问题。
尽管在半监督的医学图像分割任务中已经取得了相当的性能,但在未来的工作中仍有几个开放的问题。在本节中,我们概述了其中的一些挑战和未来的方向,具体如下。
Misaligned Distribution and Class Imbalance 现有的半监督医学图像分割方法在一些基准数据集(如LA分割)中取得了与上限的完全监督结果相当的结果。然而,这些基准是相对 "简单 "的任务,有少量的实验数据,其中训练和测试集来自同一领域/医疗中心。然而,一个适用于临床的深度学习模型应该在不同领域的多个中心和扫描仪供应商之间进行适当的泛化,因为在半监督学习中通常有大量的未标记数据,标记和未标记数据的分布可能是不一致的。最近的半监督医学分割基准也强调了这种局限性。与不使用任何未标记的数据相比,添加来自标记数据不匹配分布的未标记数据会降低性能。因此,解决错位分布对半监督学习的挑战具有非常重要的意义。至于类不平衡,当训练数据高度不平衡时,训练后的模型会表现出对多数类的偏见,在某些极端情况下可能会完全忽略少数类。此外,对于半监督的多类分割,通常存在类不平衡和有限标注数据带来的不确定性不平衡问题。最近的研究发现,在多类情况下,从预测的熵中得出的不确定性可能会导致次优结果。
Methodological Analysis 现有的半监督医学图像分割方法主要使用未标记的数据来生成约束条件,然后对标记的数据用监督损失来更新模型,对未标记的数据(或同时标记和未标记的数据)用非监督损失/约束条件来更新模型。 一般来说,只有一个单一的权重来平衡监督和无监督的损失,正如许多方法所描述的那样 。换句话说,对于半监督学习来说,所有未标记的数据都被平等对待。 然而,并非所有的无标签数据都同样适合于模型的学习程序。 例如,当对一个未标记的案例的估计不正确时,对该特定标签-估计的训练可能会损害整体性能。 为了解决这个问题,必须鼓励模型专注于更有挑战性的领域/案例,从而从未标记的数据中获取更多有用的信息,比如为每个未标记的例子分配不同的权重。 最近的研究还发现,扰动的质量是半监督学习获得合理性能的关键,特别是在数据位于低维流形附近时,有效的数据增强或扰动方案。
Integration with Other Annotation-Efficient Approaches 对于现有的半监督学习方法,我们仍然需要少量的有良好注释的标记数据来指导无标记数据的学习。然而,获得这种完全注释的训练数据仍然是昂贵的,特别是对于医学图像分割的任务。 为了进一步减轻标注成本,一些研究将半监督学习与其他标注效率高的方法相结合,如利用部分标注的数据集,利用图像级、盒级和像素级标注或涂鸦监督,或利用噪声标注的数据。
半监督学习已经被广泛地应用于医学图像分割任务,因为它减轻了获得专家检查注释的沉重负担,并利用了更容易获得的无标签数据的优势。 在这项调查中,我们对现有的用于医学图像分割任务的深度半监督学习方法进行了分类,并将这些方法分为三大类,即伪标签、无监督正则化和知识先验。除了总结这些方法的技术新颖性,我们还分析和讨论了这些方法在几个公共基准数据集上的经验结果。此外,我们还分析和讨论了现有方法的局限性和几个未解决的问题。我们希望这篇评论能够激励研究界探索解决这一挑战的方法,并进一步促进这一有影响力的研究领域的发展。