【论文翻译】Data augmentation using learned transforms for one-shot medical image segmentation

论文原文：https://arxiv.org/abs/1902.09383

完整的图、表及引用见原文，用于学习记录，与有需要的人分享。

根据图理解方法

第一步，将有标记的x和无标记的y通过一个CNN网络的学习，得到一个空间转换模型，即学习到一个由y映射到x的空间转换模型

第二步，同第一步类似，学习到一个y关于x的外观转换模型，

第三步，将x和采样过的y的空间和外观通过之前学习到的两个模型，得到采样后的空间和外观映射

第四步，根据之前得到的映射，合成新的y和y的标记

理解实验设计

数据：

共选择了101个脑部MRI来训练这个转换合成模型，其中的1个作为x，在其余的训练中，剩下的100个都依次作为y参与训练来合成新的100个数据，并且不需要这100个数据的标签。另外用50个带标签的数据来作为验证集，100个带标签的数据作为测试集。共计使用了251份数据。

步骤：

第一步，SAS：用state-of-the-art的方法得到分割标签

第二步，SAS-aug：将第一步得到的标签作为新的数据再次训练分割

第三步，rand-aug：利用调参优化分割性能

第四步，利用有ground-truth的101个数据对一个完全监督分割网络进行训练得到结果

变体的比较：

ours-indep：使用100个未标记目标得到100个空间转换和100个外观转换，合成10000个标记示例，由于内存限制，只在每次训练迭代中增加一个示例。

ours-coupled：与indep不一样，100个空间变换和100个外观变换综合起来，同样每次训练迭代只增加一个综合示例。

our-indep + rand-aug：在训练分割网络时，交替训练ous-indep合成的例子和rand-aug合成的例子。

摘要

生物医学图像分割是医学应用中的一个重要课题。基于卷积神经网络的分割方法获得了最先进的算法。然而，它们通常依赖于带有大型标记数据集的监督培训。医学图像数据集的标注需要大量的专业知识和时间，并且在大范围内是可感染的。为了解决缺乏标记数据的问题，研究人员使用了手工设计的预处理步骤、手工调整的体系结构和数据扩充等技术。然而，这些技术涉及昂贵的工程师工作，并且通常是特定于数据集的。

我们提出了一种医学图像的自动数据增强方法，展示了我们的方法在分割磁共振成像(MRI)脑扫描的任务，重点关注一次性分割的场景在许多医学应用的实际挑战。我们的方法只需要一个单一的分段扫描，并利用在半监督的方法leverage其他未标记的扫描。我们从图像中学习了一个变换模型，并将该模型与带标记的例子结合起来，合成了用于监督分段的传统带标记训练例子。每个变换都由一个空间变形场和一个强度变化组成，从而能够综合复杂的效果，如解剖学和图像获取过程中的变化。用这些新例子来增强监督分割器的训练，相对于最先进的一次生物医学图像分割方法，提供了显著的改进。我们的代码可以在https://github.com/xamyzhao/brainstorm上找到。

1.介绍

语义图像分割是许多生物医学成像应用的关键，例如在人口分析，诊断疾病，计划治疗方面。当有足够的标记数据可用时，基于监督的深度学习的分割方法产生最先进的结果。然而，在医学领域，为医学图像保留手工分割标签需要大量的专业知识和时间。在大多数临床即时数据集中，很少有手动标记的图像。由于机器和机构之间的图像采集过程存在差异，导致图像分辨率、图像噪声和组织外观[43]存在较大差异，从而加剧了有限的标记数据问题。

为了克服这些挑战，许多监督生物医学分割方法侧重于手工工程的预处理步骤和架构[50,54]。使用手动调优的数据增强来增加训练示例的数量也是常见的[2,52,54,60,62]。随机图像旋转或随机非线性形变等数据增强函数易于实现，并且已经证明，在一些设置中可以有效地提高分割精度[52,54,60,62]。然而，这些函数模拟各种真实例子[25]的能力有限，并且对参数[24]的选择非常敏感。

我们建议通过学习综合不同的和现实的带标签的例子来解决有限的带标签数据的挑战。我们新颖的、自动化的数据处理方法利用了未标记的图像。利用基于学习的配准方法，对数据集中图像之间的空间和外观转换集进行建模。这些模型捕获了未标记体中存在的解剖和成像多样性。然后，我们通过采样转换并将它们应用于单个标记的示例来综合新的示例。

本文介绍了一种对脑磁共振成像(MRI)扫描图像进行一次性分割的方法。我们使用我们的方法合成新的标记训练实例，使训练一个监督的分割网络成为可能。该策略优于现有的一次性生物医学分割方法，包括单地图集分割和手工调整数据增强的监督分割。

2.相关工作

2.1医学图像分割

我们专注于脑磁共振图像的分割，这是具有挑战性的几个原因。首先，人类大脑表现出大量的解剖变异[27,56,73]。其次，磁共振成像强度会因受试者特定的噪声、扫描仪协议和质量以及其他成像参数[43]而变化。这意味着一个组织类可以在不同的图像中以不同的强度出现——甚至是相同MRI模式的图像。仅根据外观分割这样的扫描是一项困难的任务。

许多现有的分割方法依赖于扫描预处理来减轻这些强度相关的挑战。预处理方法的运行成本很高，而针对实际数据集的发展中的技术是一个活跃的研究领域[14,70]。我们的增强方法从另一个角度解决了这些强度相关的挑战:它不是消除强度变化，而是使分割方法对MRI扫描中的自然变化具有鲁棒性。

许多经典分割方法都使用atlas-based或atlas-guided分割，其中一个标记的基准体积(或atlas)使用变形模型与目标体积对齐，标签使用相同的变形进行传播[6,13,21,31]。当多个地图集可用时，每个地图集都对齐到一个目标体积，并且将扭曲的atlas标签融合在一起[35,40,65,75]。在基于atlas的方法中，受试者之间的解剖变化由变形模型捕获，强度变化的挑战通过使用预处理扫描或强度鲁棒性指标得到减轻，如归一化互相关。然而，组织外观的模糊性(如组织边界不清、图像模糊)仍然会导致不准确的描述和定位。我们的目标是解决这一限制，通过训练一个分割模型对不同的现实例子，使分割器更健壮。我们专注于拥有一个单独的atlas，并证明我们的策略优于基于atlas的分割。如果有多个分段示例可用，我们的方法可以利用它们。

近年来，采用分段教学的方法越来越受欢迎。为了减少对大型标记训练数据集的需求，这些方法通常使用数据增强，并结合手工设计的预处理步骤和体系结构[2,39,50,54,60,62,78]。例如，在[50]中使用多分辨率图像块和卷积权值共享进行小镜头分割。

半监督和非监督方法也被提出来对抗小训练数据集的挑战。这些方法不需要成对的图像和分割数据。相反，他们利用分割数据集合来构建解剖先验[20]，训练一个对抗网络[38]，或训练一个新的语义约束[28]。实际上，图像集合比分段更容易获得。我们的方法不是依赖分段，而是利用一组未标记的图像。

2.2 空间和外观转换模型

形状和外观模型已被用于各种图像分析。在医学图像配准中，利用空间变形模型建立图像间的符号对应关系。这个成熟的领域包括基于优化的方法[4,7,64,67]和基于再学习的方法[8,9,19,41,59,69,76]。我们利用最近一种基于无监督学习的方法VoxelMorph[8,9]来学习空间变换。

许多配准方法侧重于强度归一化图像或与强度无关的目标函数，并没有明确地解释图像强度的变化。对于未归一化的图像，空间和外观转换模型一起被用来注册不同纹理或外观以及形状的对象。许多工作建立在Morphable Models[37]或Active Appearance Models (AAMs)的框架上[15,16]，其中构建了形状和纹理的统计模型。在医学领域，AAMs已被用来定位解剖标志[17,55]并进行分割[49,53,74]。我们利用卷积神经网络来学习无约束空间和强度变换场的模型。我们不是为了注册或分割的最终目标而学习转换模型，而是从这些模型中抽取样本来综合新的训练示例。实验表明，用这种方法对分段器的训练集进行增强，可以比直接使用变换模型进行分割产生更健壮的分割效果。

2.3 自然图像的小镜头分割

在图像分割、视频目标分割和交互式分割中，少镜头分割是一项具有挑战性的任务。现有的研究方法主要集中于自然图像。少镜头语义分割的方法结合了待分割类的原型实例的信息[23,66]。通过将每一帧中的对象对齐到一个标记的参考帧，经常实现少镜头视频分割[36,72]。其他方法利用大型标记的补充信息数据集，如对象外观[11]。引导网络已被用来合并额外的信息(例如，在循环的人)，以执行少数镜头分割在各种设置[57]。自然图像的小镜头分割；例如，组织类别之间的视觉差异与自然图像中物体之间的差异相比是非常细微的。

2.4 数据增强

在基于图像的监督学习任务中，通常使用简单的参数化转换(如旋转和缩放)来实现数据增强。在医学成像领域，常采用随机光滑流场来模拟解剖变化[48,60,61]。这些参数化变换可以减少过拟合，提高测试性能[33,42,48,60,61]。然而，这些变换所带来的性能增益随着变换函数的选择和参数集[24]的不同而有所不同。

最近的工作提出了从数据中学习数据增强转换。Hauberg等人的[30]专注于对数字进行分类的数据扩充。他们学习特定于数字的空间转换，并对训练图像和转换进行采样，以创建旨在提高分类性能的新示例。除了空间模型外，我们还学习了appearance模型，并重点研究了MRI的分割问题。

Ratner等人提出了一种半自动化的方法来学习空间和颜色转换的数据定位。它们依赖于用户输入来创建简单参数化转换函数的组合(例如，旋转和对比度增强)。他们学习使用生成的对抗性网络生成转换函数的新组合。相反，我们的方法是完全自动的。

3. 方法

我们提出在半监督学习框架下，通过合成真实的训练实例来改进生物医学图像的单镜头定位。

设{y (i)}为一组生物医学图像卷，令对(x,l x)表示一个标记的参考卷或atlas及其对应的分割映射。在我们的脑MRI分割问题中，每个x和y都是一个灰度三维体。我们将重点放在只有一个标记的atlas可用的具有挑战性的案例上，因为在实践中常常很难获得许多分割体积。如果有更多的分割体积可用，我们的方法可以扩展到利用它们。

执行数据增加,我们应用转换τ(k)标记图谱x。我们第一次学会独立的空间和外观变换模型来捕获的解剖分布和外观差异阿特拉斯和每个标记卷的标签。使用这两个学习的模型，我们通过对atlas卷应用空间变换和外观变换来合成标记卷{(y (k)， l (k) y)}，并使用空间变换对atlas标签映射进行翘曲。相对于空间变换模型中存在不确定性或误差的单地图集分割，我们使用相同的空间变换对体块和标签图进行合成，确保新合成的体块被正确标记。这些综合的例子构成了一个标记数据集，它描述了未标记数据集的解剖和外观变化。随着地图集，这个新的训练集使我们能够训练一个监督分割网络。这个过程如图2所示。

3.1 空间和外观转换模型

MR图像在解剖和外观上可以显示出实质性的扫描间变化。我们使用空间和强度转换的组合来描述扫描之间的差异。具体来说,我们定义了一个变换τ的成分从一个卷到另一个空间变换τs(·)和一个强度或外观改变τ(·),也就是说,τ(·)=τs(τ(·))。

我们假设一个空间变换的形式光滑voxel-wise位移场。根据医疗登记文学,我们定义变形函数φ= id + u, id是恒等函数的地方。我们使用x◦φ来表示变形φx的应用。在我们的模型空间转换的分布数据集中，我们计算出每个体积变形扭曲atlas x y(我)使用φ(i) = gθs (x, y (i)),在gθs(··)是一个参数的函数,我们描述之后。我们写近似逆变形y(我)xφ−1 (i) = gθs (y(我),x)。

我们模型的外观改变τ(·)作为per-voxel空间框架的地图集。我们用这个函数计算每体素的体积ψ(i) = hθ(x, y (i)◦φ−1 (i)), y (i)◦φ−1(我)是一个卷-假定已经注册到阿特拉斯空间使用我们学到的空间模型。总之，我们的空间和外观变换是:

τ (i)s(x) = x ◦ φ (i) , φ = g θ s (x,y (i) ) (1)

τ (i)a(x) = x + ψ (i) , ψ (i) = h θ a (x,y (i) ◦ φ −1 (i) ). (2)

3.2 学习

我们的目标是捕捉分布变换τs和τ的阿特拉斯和标记之间的卷。我们估计变换函数g sθ(··)和hθ(··)转换函数。(1)和(2)采用单独的卷积神经网络，每个网络采用图3所示的一般结构。借鉴Morphable Models[37]和Active Appearance Models[16,17]的观点，我们独立优化了空间和外观模型。

对于我们的空间模型，我们利用了VoxelMorph[8,9,19]，这是一种最近使用开源实现的基于无监督学习的方法。VoxelMorph通过联合优化animagesimilitylossanda位移场平滑度项，学习输出一个平滑的位移向量场，将一个图像映射到另一个图像。我们使用的一个变体与归一化互相关VoxelMorph 图像相似的损失,使g sθ的估计(··)与非规范的输入量。

我们使用一种相似的方法来学习外观模型。天真的,有人可能会定义hθEq(··)。(2)作为一个在atlas空间中的简单的每像素减法。然而当注册函数φ是不完美的时候,,这导致hθ(··)生产无关的细节，导致图像细节不匹配相应的扭曲解剖标签。我们不是设计hθ(··)作为神经网络产生per-voxel强度变化在解剖学上一致的方式。具体来说，我们使用即时相似度损失以及语义感知的平滑正则化。鉴于网络输出ψ(i) = hθ(x, y(我)φ1),我们定义了一种基于地图集分割图的平滑正则化函数：

L smooth (c x ,ψ) = (1 − c x )∇ψ, (3)

Cx是一个二进制图像的解剖边界，∇是空间梯度算子。直觉上，这个词减弱同一解剖区域内剧烈的强度变化。

在总外观变换模型损失1a中，我们使用均方误差来计算图像相似度损失

L sim(ˆy, y) = | |ˆ−y | | 2。在实验中，我们发现计算被试在空间框架内的图像相似度损失是有帮助的。我们用正则化项L光滑来平衡相似性损失：

L a (x,y (i) ,φ (i) ,φ −1 (i) ,ψ (i) ,c x )

= L sim ? (x + ψ (i) ) ◦ φ (i) ,y (i) ? + λ a L smooth (c x ,ψ (i) ),

λ a是超参数。

3.3 合成新的例子

Eqs中描述的模型。(1)和(2)使我们样本空间和外观变换τ(i)年代,τ(j)山姆-乞讨目标卷y (i), y (j)从一个标记的数据集。因为空间和外观的目标可以有不同的主题,我们的方法可以把一个主题的空间变化与另一个强度联合成一个单一的强度体积y。我们通过应用转换计算从目标体积到atlas的标签创建一个标记合成的例子：

y (i,j) = τ (i)s(τ (j)a(x)),

l (i,j)y= τ (i)s(l x ).

这个过程在图2中的步骤3和步骤4中被可视化。这些新的标记训练实例被包含在一个监督分割网络的训练集中。

3.4 分割网络

这些新合成的例子对于提高监督分割网络的性能具有重要意义。我们使用一个基于[63]中描述的最先进架构的网络来演示这一点。为了考虑GPU内存的限制，网络被设计成每次只处理一个片。我们训练的网络随机片增强训练集。我们使用验证集上的早期停止来选择训练的回合数。我们强调准确的分割网络体系结构不是这个工作的重点,因为我们与任何监督分割方法可以结合使用网络。

3.5 实现

我们使用Keras[12]和Tensorflow[1]实现了所有的模型。利用[8]中描述的可微三维空间变压器层实现了对图像的空间变换应用，并利用最近邻插值的相似层实现了对图像的变换分割。为了简单起见，我们使用两个相同的神经网络捕获3.1节中描述的正向和反向空间变换。出现-状态转换模型,我们使用超参数置λ= 0.02。我们在每个批中使用一对卷训练我们的转换模型，并使用16个切片的批大小训练分段模型。所有模型的学习速度均为5e4。我们的代码可以在https://github.com/xamyzhao/brainstorm上找到。

4.实验

我们演示了如何使用我们的自动增强方法来提高大脑MRI分割。我们专注于非标准化扫描的一次分割一个具有挑战性但实际的场景。强度正常化方法，如偏场校正[26,68,71]，在现实情况下可能效果不佳(例如，临床质量的扫描，或中风扫描[70]或创伤性脑损伤)。

4.1 数据

我们使用t1加权的公共可用数据集脑MRI扫描描述在[8]。数据集由8个数据库组成:ADNI[51]、OASIS[44]、遵守[46]，ADHD200 [47]， MCIC [29]， PPMI [45]，HABS[18]，哈佛GSP[32]。就像在[8]中一样，我们用1mm各向同性体素对大脑进行了256×256×256的重采样，并将图像对齐到160×192×224。我们不做任何强度校正。我们使用FreeSurfer[26]获得所有扫描的解剖学- cal分割图，并通过在没有解剖学标签的情况下将体素归零来进行颅骨剥离。为了评估，我们使用了[8]中描述的30个解剖标签的分割图。

我们主要用一个例子来说明分割的任务。我们随机选择了101个脑部扫描，以便在训练时使用。在实践中，地图集的选择通常是接近解剖平均的人口。我们从训练集中选择我们的地图集，通过找到与[8]计算的解剖学平均值最相似的扫描。本图集是我们方法在训练过程中使用的单标号示例;其他100个训练大脑的标签没有使用。我们使用额外的50个扫描作为验证集，另外100个扫描作为测试集。

4.2 分割基线

我们将我们的方法与以下基线进行比较:

Single-atlas分割(SAS)：我们训练了[8]中描述的最先进的注册算法来注册每个训练目标的标签图谱。在测试时，我们在一个单图集分割框架中使用经过训练的空间转换模型:我们将图集注册到每个测试体积，并使用计算出的形变场对图集标签进行翘曲[6,13,21,31,40]。即为每个测试图像y (i),计算φ(i) = gθs (x, y (i))和预测标签l l (i) y = xφ(我)

使用单地图集分割的数据增强(SAS-aug)：我们使用SAS结果作为未注解的训练脑的标签，然后将其作为训练样本包含在监督分割中。这就增加了100个新的训练实例。即使SAS由于注册时的错误或歧义会产生不完善的标签，对多个粗标签进行训练可以提高分割性能[79]。

手动调谐随机数据增强(rand-aug)：随机平滑变形已被证明可以用于数据增强[48,60,61]，而且在生物医学应用中尤其重要，因为它们可以模拟组织[60]的解剖变化。与[48,60,61]类似，我们首先在稀疏网格上采样随机位移向量，然后应用双线性插值和空间模糊，创建一个随机光滑变形场。我们评估了变形场振幅和平滑度的几种设置，包括[60]中描述的设置。我们使用的设置可以在验证集上获得最佳的分割性能。

我们使用一个随机的全局强度倍增因子来合成组织成像强度的变化，类似于[34,39]。我们从范围[0.5,1.5]中均匀地采样这个因子，我们通过检查来确定这个范围，以匹配数据集中的强度。这代表了在实践中如何调优增强参数。这种增强方法在每次训练迭代中合成一个新的随机转换的大脑。

监督:我们训练一个完全监督分割网络工作，使用ground truth标签的所有101个例子，在我们的训练数据集。除了atlas标签之外，这些标签对任何其他方法都不可用。这个方法作为一个上界。

4.3 我们方法的变体

独立抽样(ours-indep)：如3.3所述,我们样本空间目标图像和外观,非独立计算τ(i)年代,τ(j)。使用100个未标记目标，我们获得100个空间转换和100个外观转换，从而能够合成10000个不同的标记示例。由于内存限制，我们在每个训练迭代中合成一个带随机标签的示例，而不是将所有10000个新示例添加到训练集中。

(消融研究)耦合采样(ours-coupled):为了突出我们的独立变换模型的有效性，我们将ours-indep与我们的方法的变体进行比较，我们从相同的目标图像中采样每个空间和外观变换。这就产生了100个可能的综合例子。就像在ours-indep中一样，我们在每个训练迭代中综合一个随机的测试组。

our -indep + rand-aug:在训练分段器时，我们交替训练我们的s-indep合成的例子和rand-aug合成的例子。在我们的合成增强中添加手动调谐的增强可以引入额外的方差，即使在未标记的集合中也看不到，从而提高了分段器的鲁棒性。

4.4 评价标准

我们用骰子点数[22]来评估每种分割方法的准确性，它量化了两个解剖区域之间的重叠。骰子得分为1表示完全重叠的区域，而0表示没有重叠。预测的分割标签相对于使用FreeSurfer[26]生成的解剖标签进行评估。

4.5 结果

4.5.1 分割表现

表1给出了每种方法的分割精度。我们的方法在所有30个评价标签上的平均骰子得分都超过了所有的基线，在接下来的最佳基线rand-aug(使用配对t检验p < 1e-15)和SAS-aug (p < 1e-20)上显示出显著的改进。

在图4和图5中，我们将每种方法与单地图集分割基线进行比较。从图4可以看出，我们的方法平均上得到了最大的改进，并且比手工调优的随机增强更有一致性。图5显示，ours-indep + rand-aug在每个测试对象上始终优于每个基线。ourindep单独总是比SAS-aug和SAS好，并且在100次测试扫描中的95次都比rand-aug好。

图6显示，在大型结构上，rand-aug优于SAS，但对较小的解剖结构是有害的。相比之下，我们的方法对所有大脑结构的SAS和SAS-aug产生了一致的改善。我们在图7中展示了几个分节海马的例子。

4.5.2 合成的图像

我们独立的空间和外观模型能够合成各种各样的大脑外观。图8显示了几个例子，在这些例子中，将来自我们的模型的转换与精确的标签相结合，可以产生真实的结果。

5.讨论

为什么我们优于单地图集分割?我们的方法依赖于SAS和SAS-aug使用的相同的空间配准模型。我们的耦合和SAS-aug都增加了100个新的图像分段训练集。为了理解为什么我们的方法产生更好的分割，我们检查了增强图像。我们的方法以与标签相同的方式扭曲图像，确保扭曲的标签与转换后的图像匹配。另一方面，SAS-aug将扭曲的标签应用于原始图像，因此在配准过程中出现的任何错误或噪声都会导致错误标记的分段器新的训练示例。图9突出显示了我们的方法在海马体标签内合成图像纹理的例子，这些图像纹理更符合ground truth海马体的纹理，是一个更有用的合成训练例子。

扩展：我们的框架适用于未来几个有价值的扩展。在3.1节中，我们讨论了这一种近似的反变形函数用法，用于学习地图集参考帧中的外观变换。在未来，我们将利用现有的不同形式配准研究成果，而不是学习一个单独的逆空间反形式模型[3,5,10,19,77]。

我们从一组离散的空间和外观变换中采样变换。这可以扩展到更丰富的变换空间，例如，通过变换之间的插值，或者使用变换的组合。

我们在脑磁共振成像上演示了我们的方法。由于该方法不使用脑或mri特异性信息，因此可以将其扩展到其他解剖学或成像模式，如CT。

6. 结论

我们提出了一种基于学习的数据增强方法，并在单镜头医学图像处理中进行了验证。

我们从一个标记扫描和一组未标记的示例开始。使用基于学习的配准方法，我们对带标记和未带标记的示例之间的空间和外观转换集建模。这些转换效应包括非线性形变和成像强度的变化。我们通过采样变换并将它们应用到带标记的例子中来合成新的带标记的例子，从而产生各种各样逼真的新扫描。

我们使用这些合成的例子来训练一个监督分割模型。在我们的测试集中，该分割器在每个例子上都优于现有的一次分割方法，接近完全监督模型的性能。该框架支持在许多应用程序中进行分割，例如在临床设置中，时间限制只允许手工注释少量扫描。总之，这项工作表明

从未标记的图像中学习独立的空间和外观转换模型，可以对各种真实的标记实例进行综合

这些综合的实例可以用来训练在一次性场景中优于现有方法的分割模型。