An Unsupervised Learning Model for Deformable Medical Image Registration2019-09-10

出处：cvpr 2018 https://arxiv.org/abs/1802.02604v1
是为数不多的开源的深度学习图像配准算法，提出了VoxelMorph模型。一般会选择作为baseline。
简单来说就是通过CNN学习图像的变形场，然后通过空间转换层得到moved 图像实现从moving图像到fixed图像的配准
开源地址为 https://github.com/voxelmorph/voxelmorph

摘要

文章提出一种对3D成对的图像进行快速的基于学习的医学图像配准算法，将配准定义为一个定义为一个参数函数，并用使用数据集进行优化，对新给定的待配准图像对，直接使用学习到的参数函数进行配准，实现one-step配准。克服了传统迭代配准的效率低下的问题。文章采用CNN来学习从变形场（也就是刚才提到的参数函数），然后通过使用空间变换成来实现移动图像到固定图像之间的配准。这个过程中在配准域上施加一个平滑约束。这个方法通过无监督方式实现，精度高速度快

1. 简介

非刚性配准是医学图像研究中的一个基本任务，数十年一直是活跃的研究课题。在非刚性配准中，目的是在一对n-D图像卷(如3D MR脑扫描)之间建立了紧密的非线性对应关系来描述相似结构。大部分的配准方法是是通过解决一个对齐图像间具有相似外观的体素，同时对配准映射施加平滑约束的优化问题来实现。这其中计算是非常费时。
与此相反，本文提出了一种新的配准方法，该方法从一组图像中学习参数化的配准函数。我们使用卷积神经网络(CNN)来实现这个函数，它接受两个n-D的输入图像，并输出一个图像的所有体素到另一个图像的映射。卷积核权值通过使用感兴趣数据集的一组图像训练得到。
本文创新性
•我们提出了一种基于学习的解决方案，不需要任何监督信息，
•我们提出了一个参数共享的CNN函数，通过函数评估实现配准
•我们的方法可以对各种成本函数进行参数优化，可以适应各种任务。
本文在3D脑部图像上进行实验，但是这个方法可以用在其他配准任务中，不仅仅在医学领域。
我们在一个包含7000多个扫描数据集上评估了我们的方法，这些扫描数据集包含了来自不同年龄组的健康和病变大脑的图像。结果表明，我们的方法达到了和state-of-the-art相当的精度却使用了极少的时间。以前需要花费两个小时来配准，现在可以在一到两分钟内使用CPU配准，在一秒钟内使用GPU配准。这对于许多医学图像分析任务具有重要的实际意义。

2. 背景

在典型的图像配准中一个图像（moving image）进行扭曲变形，得到第二个图像（fixed image），非刚性配准策略将初始的全局仿射配准和非刚性变换。我们关注在后面一步，我们计算一个非线性的密集的映射关系。图1显示了从3DMRI图像中选取的冠状切片。并在上面画出几个解剖结构的边界。由于不同的健康状态和健康大脑的解剖位置变异，在不同对象之间存在着显著差异。非刚性配准能够实现不同扫描方式和对象对结构进行比较和分析。这样的分析对于理解不同人群之间的差异，以及疾病患者随时间的大脑解剖学进化是很有用的。
大多数现有的配准算法都是基于能量函数对变换进行迭代优化。让F, M表示固定和移动图像,分别让φ配准变形场。优化问题一般为:

image.png

M(φ)是M经过φ扭曲之后的图像，也就是moved图像，L_sim表示相似性度量，L_smooth表示对φ施加正则化，Lambda是正则化系数。

图1 从三维MRI大脑数据集冠状切片的样例，经过仿射对齐。每一列是不同的扫描(主题)，每一行是不同的冠状切面。几个重要的解剖区域用不同的颜色勾勒出来:L/R白质为浅/深蓝色，L/R脑室为黄色/红色，L/R海马为紫色/绿色。扫描之间存在明显的结构差异，因此需要一个可变形的配准步骤来分析扫描间的变化。

φ，L_sim 和L_smooth.有几种常见的形式，φ是一个位移向量场，为每个体素指定从F到M的位移偏置。微分同胚转换把φ建模为一个速度向量场的积分，被广泛采用。因此,他们能够在φ上保持拓扑和执行可逆性。Lsim常用的度量标准包括均方体素差（MSE）、互信息(MI)和互相关性(NCC)。当图像具有不同的强度分布和对比度时，后两种方法特别有用。L_smooth约束空间平滑变形,通常是在φ的空间梯度上的线性操作。在我们的工作中，我们使用一个图像对数据集来优化函数参数，以最小化(1)式形式的期望能量。

3.相关工作

3.1 非学习的医学图像配准

在3D医学图像配准中，在优化空间向量场上有很多研究，包括弹性模型[6,38]，统计参数映射[3]，b样条的自由变形，[37]和Demons42]。我们的模型也假设位移向量场。在各种计算解剖学研究中，具有拓扑保真特性的微分同胚变换取得了显著的成功。典型的有SyN

3.2 基于学习的医学图像配准

最近有几篇论文提出利用神经网络学习医学图像配准的函数。它们中的大多数依赖于ground truth变形场或分割[26,35,39,45]，与我们的方法相比，这是一个显著的缺点，而我们的方法两者都不需要。最近的两项研究[14,27]提出了更接近我们方法的无监督方法。两者都提出了一个由CNN和空间变换函数[23]组成的神经网络，该神经网络将图像变形到另一个图像。不幸的是，这些方法都是初步的，并且有很大的缺陷:它们只在有限的图像集上演示，比如3D子区域或2D切片，并且只支持小的转换。另一些[14]采用了仅由插值方法隐式确定的正则化。相比之下，我们的可推广方法适用于整个3D体块，处理大变形，并支持任何可微分的成本函数。我们对我们的方法进行了严格的分析，并在完整的MR图像上展示了结果

3.3 2D图像对齐

光流估计是一个类似于二维图像三维体积配准的问题。光流算法返回一个描述二维图像对间小位移的密集位移向量场。传统的光流方法通常使用变分迭代方法解决类似于(1)的优化问题[8,21,41]。更好地处理大位移或外观变化的扩展包括基于特征的匹配[9,28]和最近邻[10]。

已经提出了几种基于学习的密集2D图像对齐方法。一项研究使用PCA学习了自然图像中光流的低维基础[44]。最近其他有关光流的研究使用卷积神经网络来学习参数函数[16，43]。不幸的是，这些方法需要在训练过程中需要ground truth。空间变换层使神经网络无需监督标签即可执行全局参数2D图像对齐[23]。此后，该层也已用于密集的空间转换[34，46]。在我们的工作中，我们将空间转换器扩展到3D。

4. 方法

我们实验采用3D灰度图像，有一个通道。而且假设F和M已经在预处理阶段进行仿射对齐所以图像之间不一致性仅仅是非线性的。
我们使用CNN建模gθ(F, M) =φ函数，φ是配准场，θ是G学习到的参数。对每个体素p ，φ(p)是一个位置，F(p)和M(p)是固定图像和移动图像相同位置的体素
我们方法的总图框架如图2。输入为M和F。神经网络计算出变形场φ，利用空间转换函数吧moving图像转换成为moved图像。评估Moved image 和fixed image的相似性，来优化整个网络。使用随机梯度下降来优化目标函数，我们称模型为Voxel-Morph

图2：Overview of our method. We learn parameters for a function g that registers one 3D volume (M) to a second, fixed volume (F). During training, we warp M with φ using a spatial transformer function. Our loss compares Mφ and F and enforces smoothness of φ.

4.1 Voxel-Morph 的CNN结构

网络结构类似于U-net，由编码器，解码器，和跳转连接组成。如图3所示

图3给出了网络的两种变形，下面网络的生成精度较高，同时也是较为费时的。另一个则反之。他们都将F和M concat成为两通道的3d图像。在我们的实验中输入的形状为1601922242的图像，在每个编码器和解码器中使用卷积核为33*3的3D卷积然后Leaky ReLU激活。卷积层捕获输入图像对的层间特征，在编码器中，我们使用strided convolutions将空间维度减半，直到达到最小的层。编码器的连续层对输入的粗糙表示进行操作，类似于传统图像配准工作中使用的图像金字塔。

图3 生成网络架构gθ(F,M)。每个矩形代表一个3 d图像。矩形内是通道数，下方数字是当前形状和输入的分辨率之比。voxelmorph2使用了一个更大的架构，在输出分辨率上使用了一个额外的卷积层，并为后面的层提供了更多的通道。

最小层卷积核的感受野至少应与M和F中相应体素之间的最大期望位移相等。最小层在原图（1/16)³的尺寸上进行卷积。在解码器阶段我们交替上采样、卷积(跟着leakyReLU激活)和跳跃。连接跳过连接将在将下采样过程中学习到的特征直接传播到上采样配准的层。解码器的输出φ的形状是160192224*3
解码器在空间尺度上进行连续操作，使精确的解剖对齐成为可能。然而，这些卷积适用于最大的图像，这在计算上是昂贵的。我们使用voxelmorph1和voxelmorph2两种架构来探索精度和复杂度上的权衡，这两种架构在解码器的末端大小不同(见图3)

4.2 空间转换函数

本文所提出的方法通过最小化moved image 和 fixed image来学习参数，为了能够使用标准的基于梯度的方法，我们在空间转换网络(STN)的基础上进行了一些不同的操作来计算moved image
对于每个体素p,我们在moving image计算一个(亚像素)体素位置φ（p）,因为图像值只有在整数定义的位置,我们线性插入8个相邻像素点的值。也就是说，我们有如下表示

其中Z_(φ(p))是φ(p)的相邻体素，由于操作在几乎所有地方都是可微的，所以我们可以在优化期间反向传播误差。

4.3 损失函数

该方法适用于任何可微损失。在本节中，我们将使用公式2的常见的损失函数包括两个部分：
l_sim 惩罚图像表现上的不同，l_smooth惩罚φ的局部空间变化，在我们的实验中我们使用moved image和fixed image之间的负局部相关性作为相似性，局部相关性经常作为强度不同的跨模态的相似性度量。

公式太难打了不写了，哈哈哈哈，应该不难懂，就是定义局部相关性

最小化L_sim将促使moved image趋向于fixed image但是这个过程中可能会产生不连续的变形场φ，我们使用空间梯度扩散正则化来优化平滑的φ:

我们利用相邻体素之间的差异来优化空间梯度。因此，完全损失为，:

5. 实验

5.1. 数据集

我们在脑部MRI图像配准任务中验证我们提出来的方法。我们使用了来自8个公开数据集的7829个 t1加权脑MRI的数据集:包括：ADNI [33], OASIS [29],ABIDE [31], ADHD200 [32], MCIC [19], PPMI [30],HABS [12], and Harvard GSP [20]. 每个数据集的获取细节、受试者年龄范围和健康状况都不同。所有扫描均重采样至256×256×256网格，各向同性体素为1mm。我们进行了标准的预处理步骤，包括使用FreeSurfer[17]对每次扫描进行仿射空间归一化，大脑提取和裁剪到160×192×224图像。所有的核磁共振也使用FreeSurfer进行分割，我们使用目视检查捕捉分割结果的严重错误来进行质量控制(QC)。我们使用分割结果评估我们的配准效果。我们将数据集分为7329、250和250卷，分别用于训练、验证和测试集。
我们关注基于atlas的配准。我们在atlas和数据集中每个图像计算一个变形场，基于atlas的配准是人口分析中常用的形式，其中主体间注册是核心问题。地图集代表一个参考，或平均图像，通常是由联合和重复校准脑磁共振数据集，并平均在一起。我们使用使用外部数据集的atlas[17,40]。每个输入卷对由atlas(fixed image)和数据集的一个随机图像(moving image)组成。本文中描述大脑的所有图形均为二维冠状切片，仅供可视化使用。所有配准都是3D完成的。

5.2 Dice 分数

为这些数据获取密集的ground truth 配准不好定义，因为许多变形场能够产生外观相似的扭曲图像。我们使用解剖位置分割的图像重叠性来评价配准效果。我们对所有的测试对象，测试19个结构。如果变形场能够实现正确的解剖位置的对应那么fixed 和moved的分割结果将重叠很大。如图4

Figure 4: Example MR coronal slices extracted from input pairs (columns 1-2), and resulting M(φ) for VoxelMorph-1 and VoxelMorph-2, with overlaid boundaries of the ventricles (yellow, orange) and hippocampi (red, green). A good registration will cause structures in M(φ) to look similar to structures in F. Our networks handle large changes in shapes, such as the ventricles in row 2 and the left hippocampi in rows 3-4.

让skF 和skM(φ)表示F和M(φ)的结构k。我们使用dice分数来衡量准确率，表示两个图像中结构的重叠程度

dice分数为1表示这两个图像相等，分数为0表示没有重叠。

5.3 baseline

我们比较了对称归一化(SyN)[4]的方法，对称归一化是比较研究[25]中性能最好的配准算法。我们在公共可用的ant软件包[5]中使用SyN实现，并使用相关的相似性度量。
我们发现默认的ANT平滑度参数在我们的方法上是次优的。我们通过对多个数据集进行大范围的参数扫描来获得改进的参数，并在这些实验中使用这些参数。

5.4 具体实施

我们使用Keras[11]和Tensorflow后端[1]实现我们的网络。我们使用ADAM优化器[24]，学习速率为1e−4。为了减少内存使用，每个训练批包含一对卷。我们训练独立网络与不同的λ值,直到收敛。我们选择在我们的验证集上优化Dice分数的网络，

5.5 结果

5.5.1准确率

表1显示了所有结构上的平均dice分数，VoxelMorph模型的表现与ANT相当，voxelmorph2的表现略好于VoxelMorph- 1。这三种方法在仿射对齐方面都有显著提高。我们将每个结构的dice分数分布可视化为图5中的箱形图。为了可视化的目的，我们将两个半球相同的结构结合起来，例如左脑和右脑白质。VoxelMorph模型对所有结构的骰子测量结果与ANT相当，在大脑白质等某些结构上的表现略好于ANT，而在海马等其它结构上的表现较差。

Table 1: Average Dice scores and runtime results for affine alignment, ANTs, VoxelMorph-1, VoxelMorph-2. Standard deviations are in parentheses. The average Dice score is computed over all structures and subjects. Timing is computed after preprocessing. Our networks yield comparable results to ANTs in Dice score, while operating orders of magnitude faster during testing. To our knowledge, ANTs does not have a GPU implementation

5.5.2 运行时间（这部分直接翻译的）

表1展示了使用Intel Xeon (E5- 2680) CPU和NVIDIA TitanX GPU的运行时结果。我们报告了仿射对齐预处理步骤之后的计算占用的时间，所有提供的方法共享该步骤，并且只需要占用CPU上的几分钟时间。ant大约需要两个或更多小时的CPU时间。使用CPU时，voxelmorph1和voxelmorph2的平均速度要快60倍和150倍以上。蚂蚁的运行时差别很大，因为它的收敛取决于对齐任务的难度。当使用GPU时，我们的网络在一秒内计算一个配准。据我们所知，目前还没有针对gpu的公开的ant实现。

Figure 5: Boxplots of Dice scores for anatomical structures for VoxelMorph-1, VoxelMorph-2 and ANTs. We combine structures with separate left and right brain hemispheres into one structure for this visualization. Structures are ordered by average ANTs Dice score.

5.5.3 在子数据集上训练和测试

前几节的结果结合了由不同数据集类型组成的多个数据集，所以训练好的模型能够很好的适用于数据集中的对象。在本节中，我们将对特定于子数据集的参数进行建模，来验证我们方法的鲁棒性。我们使用ABIDE数据训练，并在不可见的ADICE上评估测试性能。ADICE包括扫描自闭患者和对照组，并包括广泛的年龄范围，中位年龄为15岁。在表2中，我们将结果与在所有数据集上训练的模型的结果进行了比较。在特定数据及下网络实现了1.5%dice分数的提高

Table 2: Average Dice scores on ABIDE scans, when trained on all datasets (column 2) and ABIDE scans only (column 3). We achieve roughly 1.5% better scores when training on ABIDE only.

5.5.4 正则化分析

图6给出平均dice分数验证设置为不同的值的平滑参数λ。选用仿射变换的dice分数作为一个baseline。最优dice分数发生当λ= 1为VoxelMorph-2 VoxelMorph-1和λ= 1.5。然而,不同的λ值结果大范围变化不大λ值,表明我们的模型对λ的选择是鲁邦的。有趣的是，即使设置lambda = 0 也就是没有正则化，导致了仿射诶准的显著提高。这可能是由于的最佳网络参数θˆ需要配准所有对训练集,给了一个隐式的正规化。图6b显示了不同正则化值的冠状切片上的配准域。对于低λ,现场可以跨边缘和结构发生巨大的变化

Figure 6: (a) Effect of varying the regularization parameter λ on Dice score. The best results occur when λ = 1 for VoxelMorph-1 and λ = 1.5 for VoxelMorph-2. Also shown are Dice scores when applying only affine registration. (b) Examples of VoxelMorph-2 registration fields for a 2D coronal slice, for different values of λ. Each row is a different scan. We clip the x, y, z displacements to [−10, 10], rescale them to [0, 1], and place them in RGB channels. As λ increases, the registration field becomes smoother across structural boundaries.

6. 讨论

我们的模型能够执行与state-ofthe-art 的ANT配准同时要求计算时间少得多。而我们的方法学习一般特征配准所需的数据,它可以这些参数适应特定数据集。当只在ABDIE数据集上训练时,比其他多个数据集一起训练的时候得到dice分数的提高，。这一结果表明,我们的模型的一些参数学习特定的训练图像属性。
我们提出了两种模型，在精度和计算时间上进行了权衡。更小的架构VoxelMorph-1在CPU上运行得更快，比voxelmorph-2差不到一个骰子点数。这将启用特定于应用程序的决策。我们的模型的一个优点是，通过改变网络中卷积层和通道的数量可以很容易地探索这种权衡，这些可以被视为超参数。

未完待续。。。。。。。。