暂无公开代码
这篇文章是做什么的:跨模态MR图像合成
输入:单张图像
是否需要数据配准:需要
是基于2D还是3D: 3D
---文章的motivation---
磁共振(Magnetic resonance MR)成像是可设置为在人体组织之间提供不同的对比度。通过设置不同的扫描参数,每种MR都反映了扫描的身体部位的独特视觉特征,每个模态显示独特的软组织对比度,有利于后续的多角度分析。为了利用多种成像方式的互补信息,跨模态图像合成近年来引起了越来越多的研究兴趣。现有的方法大多只关注像素/体素方向的强度差异,而忽略了图像内容结构的纹理细节,影响了合成图像的质量。本文中提出了用于跨模态MR图像合成的边缘感知生成对抗网络 edge-aware generative adversarial networks(Ea-GANs)。具体地说,本文集成了边缘信息,它反映了图像内容的纹理结构,并描述了图像中不同对象的边界。针对不同的学习策略,本文提出了两个框架,generator-induced Ea-GAN(gEa-GAN)和discriminator-induced Ea-GAN (dEa-GAN)。gEa-GAN通过其生成器整合边缘信息,而dEa-GAN则通过生成器和鉴别器进一步整合边缘信息,以便边缘相似性也能被逆向学习。此外,gEa-GAN是基于3D的,并利用层次特征捕获上下文信息。实验结果表明,所提出的Ea-GAN,尤其是dEa-GAN,在定性和定量方面都优于多种最新跨模态MR图像合成方法。此外,dEa-GAN还展示了其他图像合成任务的通用性。
---方法发展过程---
基于学习的合成方法训练一个非线性模型,该模型将每个源模态patch映射到目标模态中具有相同位置的对应patch中心的像素/体素。例如,Huynh等人训练了一个结构化的随机森林模型从MRI图像估计CT图像[18];Wang等人提出了一种半监督三重字典学习方法,用于从低剂量PET图像预测标准剂量PET图像[19];Ye等人通过基于patch搜索的跨模态MR图像合成[8]。所有这些基于patch的方法都存在一个局限性,即忽略了同一图像中patch之间的重要空间关系,导致合成图像的对比度不一致。
为了缓解这个问题,在[9]中通过多分辨率patch回归额外捕获全局空间信息,用于跨模态图像合成。然而,上述方法[8]、[9]、[18]、[19]中使用的手工制作的特征在描述图像中复杂的上下文细节方面具有有限的能力,这反过来会影响合成质量。此外,在这些方法中,基于patch的估计通常应用于每个单独的体素,并且整个图像的最终估计由大量高度重叠的patch确定。因此,这种方法通常会导致合成图像的过度平滑,并且会产生巨大的计算成本。
为了解决上述问题,基于深度学习的模型,如卷积神经网络(CNN)和完全卷积网络(FCN),已被用于自动学习具有更好描述能力的特征[20],[21]。此外,研究人员最近发现,与基于小patch的方法相比,使用全图像或基于大patch的分析可以更好地了解像素/体素之间的隐式依赖关系,并且计算成本更低[22],[23]。沿着这条路线,已经提出了端到端深度学习模型来合成[7]中的整个MR图像和[24]和[25]中的整个CT图像。
此外,条件生成对抗网络(cGAN)[26]最近在通用图像合成[27]–[29]中取得了较好的结果。基本上,cGAN模型由两个模块组成,一个用于合成图像的生成器(例如,传统的基于CNN的图像模型)和一个用于将合成图像与真相区分开来的鉴别器。这两个模块相互竞争以实现纳什均衡(Nash equilibrium)。最近,基于cGAN的图像合成模型也成功应用于医学图像,如视网膜图像(retinal images)[30]–[32]、CT图像[33]–[35]、PET图像[36]、[37]、MR图像[38]–[46]、超声图像[47]和内窥镜图像(endoscopy images)[48]。
这些方法大多用于二维图像合成。对于三维医学成像数据,这些方法独立地估计每个轴向切片(axial slice),然后将它们连接起来形成目标三维图像。这样,合成3D图像的冠状面和矢状面切片由来自轴平面的单独估计线形成,因此可能显示出严重的不连续性( the coronal and sagittal slices of a synthesized 3D image are formed by the separately estimated lines from the axial planes, and therefore may show strong discontinuities)。为了缓解切片不连续性问题,在[37]、[38]和[46]中提出了基于3D的cGAN模型。然而,与大多数2D cGAN模型类似,[37]和[38]中基于3D的模型遵循[27]中的工作,以简单地最小化合成图像和真实图像之间的像素/体素差异。这忽略了图像中的结构内容,例如对象的纹理或形状,从而导致合成图像不太清晰。[46]中基于3D的模型对真实图像和合成图像之间的梯度相似性施加了额外的约束,以便增强合成图像的清晰度。
本文提出了边缘感知生成对抗网络(Ea-GANs),以进一步克服大多数现有cGAN医学图像合成模型中的切片不连续性和合成模糊的问题。本文方法是基于3D的,它们同时提取体素强度和图像结构信息以便于合成。本文的创新之处和贡献总结如下。
1) 为了缓解小patch和切片上的非相干估计问题,模型提供了基于3D的估计,并使用cGAN在全局水平上进行跨模态合成。它减轻了现有2D cGAN模型遇到的跨切片的不连续合成,并在更大范围内捕获图像上下文,以便高效合成高质量图像。
2) 单纯增强体素强度相似度不足以进行图像合成,因此提出了保留边缘信息以提高合成质量。
3) 为了整合边缘信息,根据不同的学习策略提出了两种不同的Ea-GAN,即gEa-GAN和dEa-GAN。在gEa-GAN中,边缘信息被合并到生成器的目标函数中,使合成图像与真实图像有相似的edge map。在dEa-GAN算法中,边缘信息被融合到生成器和鉴别器中。这样边缘信息也将被逆向学习,这将进一步提高合成性能。
4) 本文方法与[46]中基于梯度损失的方法有很大不同。与直接使用梯度信息相比,Sobel算子提供的边缘信息对噪声不太敏感,Sobel滤波器将较高的权重分配给其较近的邻居,将较低的权重分配给其较远的邻居,这无法通过直接利用图像梯度来实现。[46]中的梯度信息仅用于生成器的目标函数,而不涉及像dEa-GAN那样的对抗性学习。
5) Ea-GANs分别在包含脑损伤和颅骨(brain lesions and skulls)的两组MR图像数据集上进行了验证,还测试了dEa-GAN的2D变体在多个通用2D图像合成任务上的性能。
---方法---
A. Ea-GANs
当病变(lesions)包含在MR图像中时,边缘信息有助于区分病变和正常组织,并有助于更好地描绘异常区域的轮廓,例如脑MR图像中的胶质瘤肿瘤(Gliomas tumors)[53](如图1的放大部分所示)。
使用常用的Sobel算子计算edge map,并且可以很容易地为反向传播计算其导数(derivative)。
如图2所示,使用三个Sobel滤波器Fi、Fj和Fk卷积图像A以分别生成与沿i、j和k方向的强度梯度相对应的三个edge map。这三个edge map通过以下等式合并为最终edge map
基于利用edge map的不同策略,提出了两种框架,即gEa-GAN和dEa-GAN(如图3所示)。每个由三个模块组成,一个生成器G、一个鉴别器D和一个Sobel边缘检测器S。
源模态图像x和目标模态图像y在具有不同对比度的同一对象上扫描。所提出的gEa-GAN的G旨在合成像图像G(x)这样的目标模态,该图像可以通过对抗损失训练来愚弄其鉴别器D。此外,通过G应用L1-norm惩罚约束真实图像和合成图像之间的差异以及由Sobel边缘检测器S提取的edge maps之间的差异。在合成过程中,体素强度相似性和边缘相似性都得到了加强。因此,其生成器G的目标定义如下:
gEa-GAN通过其图像合成生成器执行体素强度相似性和边缘相似性。然而,由于边缘项(edge term)仅出现在生成器侧,因此鉴别器不感知边缘信息。受生成器和鉴别器之间的对抗性学习机制的启发,进一步提出了一个dEa-GAN框架,生成器和鉴别器都可以从合成图像及其edge maps中获益。因此,鉴别器还能够利用边缘细节来区分真实图像和合成图像,这反过来强制生成器合成的更好的边缘细节。
生成器G根据以下目标,使用对抗性损失、体素强度差损失和边缘差损失进行训练:
与gEa-GAN模型相比,通过鉴别器D的输出,边映射S(G(x))也隐式地出现在等式8的第一项中。
可以看出,鉴别器通过添加edge map S(G(x))或S(y)将三元组作为其输入。对于由x、G(x)和S(G(x))组成的合成三元组,标签为零;对于由x,y,S(y)组成的真实三元组,标签为1。鉴别器试图区分这两种类型的三元组。
该dEa-GAN模型的最终目标是:
B. DetailedArchitectures
由于有限的GPU内存和所需的训练批量,因此使用大重叠块(128×128×128)而不是整个图像来训练Ea-GAN模型,这可以提供足够数量的样本来训练一个好的模型。
1) 生成器结构:U-net作为一种基于CNN的模型,在文献[22]中被提出用于分析整个图像或大图像块。它从输入中获取全局上下文信息,并确保输出的空间连续性。U-net体系结构的典型特征是收缩和扩展路径之间有多个跳跃连接。使用这种结构,U-net可以捕获输入图像的层次特征,并在训练深度网络时减轻长反向传播造成的梯度消失[22]。它已扩展到3D变体,以更好地处理3D医学图像[23],[54]。本文将Ea-GANs的生成器设计为一个类似于3D U型网络。它的收缩路径上有七个卷积(conv)块,扩展路径上有七个上卷积(up cov)块。在每个conv块和相应的upconv块之间,采用跳跃连接来有效地捕获源模态图像的multi- depth information。
2) 鉴别器结构:对于所提出的gEa-GAN模型,其鉴别器的输入是一对图像,因此鉴别器接收两个通道的3D大patch。同时,dEa-GAN模型处理具有三个通道的3D大patch的三元组。因此,所设计的鉴别器在两种Ea-GAN模型(gEa-GAN和dEa-GAN)中因其第一层涉及不同数量的输入通道而有所不同。鉴别器由四个conv块、另一个卷积层(一个核大小为1×1×1)和一个sigmoid层组成,以类索引class index 1或0为目标,表示真实或合成。
C. Implementation
当训练GAN模型时,一个常见的问题是它可能变得不稳定,甚至很容易模式崩溃[55]。例如,鉴别器往往比生成器更强大,其损失函数的不同下降速度反映了这一点。在这种情况下,整个模型是不稳定的,无法合成高质量的图像。文献[55]中讨论了许多提高GAN模型训练稳定性的技术。在我们的工作中,我们考虑两种策略。
第一种,对鉴别器使用的标签进行平滑处理以提高区分的难度,并进一步降低对抗性学习的脆弱性(vulnerability)。对于合成对/三元组,鉴别器的目标标签设置为0到0.3之间的随机数,而对于真实对/三元组,目标标签设置为0.7到1.2之间的随机值[56]。这样鉴别器的任务变得更具挑战性,以匹配生成器任务的难度,从而使对抗训练变得平衡。
第二种,用于更好地利用MR图像中的边缘信息。在训练的初始阶段,提取的边缘图的质量不足以有效地指导合成,而边缘图的质量高度依赖于生成的图像。为了缓解此问题,最初将超参数λ edge的值设置为较小,然后逐渐增加,以调整边缘信息的重要性。具体地说,前20个epoch将λ edge从0线性增加到100,然后在接下来的20个epoch将其固定在100。这样,Ea-GANs就可以有效地利用边缘信息合成清晰逼真的目标图像。
---实验结果---
A. Dataset and Experimental Setting
数据集:BRATS2015数据集 和 IXI数据集
BRATS2015数据集由274名受试者组成,共有四种模式的配准MR图像:T1加权(T1)、T1加权和对比度增强(T1c)、T2加权(T2)和FLAIR,图像大小为240×240×155(体素)。在本文中,使用T1作为源模态,因为它是结构成像最常用的模态,并分别以FLAIR和T2作为目标模态测试两个合成任务。为了在整个数据集上有效地评估不同的方法,进行了五次交叉验证(Five-fold cross-validation)。对于每个交叉验证分割,我们将数据集划分为一个训练集(由4/5个样本组成)和一个测试集(由1/5个样本组成)。所有使用的图像的原始强度值将线性缩放为[−1,1]在Ea GANs处理之前没有任何额外的对比度变化。对于每幅图像,提取八个大patch(大小:128×128×128),并对重叠区域进行平均以形成最终估计。为了增加训练样本的数量,使用大patch而不是整个图像进行训练,这与传统的基于小patch的合成方法中使用的体素回归有本质区别。
IXI数据集包括来自五种模式(即T1、T2、PD、MRA和DTI)的578名非颅骨剥离大脑MR图像受试者,图像大小为256×256×N(每个受试者的N不同)。根据[7]从PD图像合成T2图像。数据集通过五重交叉验证使用,因此训练集和测试集分别由来自4/5和1/5受试者的样本组成用于每个交叉验证分割。将原始强度值线性缩放为[−1,1]在预处理过程中没有任何额外的对比度变化。对于每个3D图像,沿冠状面和矢状面方向(trans-coronal and trans-sagittal directions)提取非重叠的大patches(大小:128×128×128)。沿着trans-axial方向,如果N<128,patch上填充−1。
对于所有合成任务,进行150 epochs训练模型。在前100 epochs,学习率固定为0.0002,然后在接下来的50 epochs线性衰减为零。批量大小为6的Adam用于最小化目标。在训练过程中,λl1固定为300,而λ edge在前20 epochs中从0线性增加到100,然后在接下来的130 epochs中保持在100。
B. Methods in Comparison
比较方法如下:
1) Replica[9]使用手工制作的多分辨率3D patch训练随机森林进行合成。
2) Multimodal[7]是一种基于2D CNN的模型,用于在像素方向强度差的约束下逐层(slice by slice)合成MR图像。
3) Pix2pix[27]是一个2D cGAN模型,它通过约束像素级强度相似性来合成整个2D图像。
使用发布的代码直接运行这三个模型,并遵循原始文件进行图像预处理和模型设置。两个二维模型,即 Multimodal[7]和Pix2pix[27],使用轴向切片(axial slices)进行训练。然后,将每个对象的合成轴向切片连接起来,形成一个3D volum。
此外,为了便于比较,本文提出了一个3D cGAN模型,该模型具有与Pix2pix相同的目标函数[27]。该3D cGAN模型遵循与gEa-GAN和dEa-GAN相同的架构、结构和参数设置。所有三维模型都使用大3D patch,以增加训练样本的数量。
此外,为了验证使用edge map优于直接使用图像梯度的优势,还构建了一个cGAN模型,该模型遵循gEa-GAN和dEa-GAN的网络结构,但使用了[46]中的图像梯度差损失,而不是边缘相似性损失。该模型表示为梯度cGAN。为了平衡目标函数中的每个项,增加的图像梯度差损失通过输出体素的数量标准化并乘以3000。
C.Evaluation Measures
PSNR用于测量对数分贝标度的估计精度。
SSIM用于衡量两幅图像的相似性,将图像退化视为结构信息的感知变化。
在评估之前,将所有合成图像和真实图像的强度值相加1,然后除以2。因此,所有图像的强度值都在0到1之间。
D. Results on BRATS2015
表一: 整个图像(包括大脑和背景)表二:肿瘤区域
了测试dEa-GAN是否显著优于比较方法,进行配对t检验,遵循[60]–[62]。
Comparison between 2D and 3D cGAN
Comparison between 3D cGAN and the two proposed Ea-GANs
Comparison between gradient cGAN and gEa-GAN
Comparison between the two proposed Ea-GANs
Comparison between the state-of-the-art models and the two proposed Ea-GANs
所提出的算法在保留合成图像中的关键病理信息( critical pathological information)方面具有较强的能力,因为这些信息与边缘相关。
E. Results on IXIDataset
F. Results on Synthesized Image Edge Maps
为了显示所提出的算法的边缘保持性能,从合成图像和真实图像中提取的三种edge map,即Sobel、Prewitt和Canny二值边缘映射,通过表III、IV、V和VI中的PSNR、NMSE和SSIM进行比较。如图所示,Ea-GANs生成最接近真实值的edge map。
G. Generic ImageSynthesis Results
为了评估本文方法的通用性和有效性,将dEa GAN扩展到其2D变体2D dEa GAN,并将其与Pix2pix进行比较[27]。使用了三个通用的图像到图像转换基准数据集。对于facades数据集[63],使用400个训练样本和206个测试样本进行标签到照片的翻译。对于maps 数据集,使用了[27]刮取(scraped)的1096张训练图像和1098张测试图像,并对地图到空中(map-to-aerial)的转换进行了处理。对于cityscapes数据集[64],照片由城市景观标签合成,包含2975张训练图像和500张测试图像。所有图像预处理步骤和实验设置均遵循[27]中的工作。
表VII验证了保留边缘信息对于不同的通用图像合成任务至关重要。
---讨论---
目前的工作有以下局限性。
首先,由于训练图像的数量有限,没有使用验证集来优化选择训练参数。为了增加训练数据的实际数量,使用大的3D patch而不是整个图像进行训练。在未来工作中,将尝试增加更多的样本来选择参数,并在3D整个图像合成上评估本文的方法。
第二,增强边缘相似性只是维持图像内容的潜在方法之一。在我们目前的研究中,由于优化的困难,其他一些与图像结构相关的测量,例如局部归一化互相关(local normalized cross-correlation),没有被研究。本文将在今后的研究中对此进行深入探讨。
第三,当前的MR图像合成框架通常要求训练样本同时具有源模态和目标模态。然而,这种要求在许多医学应用中往往难以满足,这进一步减少了可用训练样本的数量,并限制了用于合成的模型的性能。在未来的工作中,本文将通过学习半监督Ea-GANs来放宽这一要求,使我们的模型更适合医学图像合成中的各种场景。
第四,本文工作证明了所提出的方法在同一数据集中进行学习的有效性。在未来,我们将尝试利用领域适应技术(domain adaptation techniques)来进一步扩展它们,以解决跨数据集学习问题(cross-dataset learning problems)。
---结论---
在本文中提出了两种新的Ea-GAN端到端框架,即gEa-GAN和dEa-GAN,用于从给定的源模态合成目标模态MR图像。在合成过程中,所提出的Ea-GAN,特别是dEa-GAN,联合体素强度相似性和边缘相似性,取得了比多种最先进的MR图像合成方法更好的结果。此外,dEa-GAN在不同的图像合成任务中表现出良好的通用性。
[7] A. Chartsias, T. Joyce, M. V. Giuffrida, and S. A. Tsaftaris, “Multimodal MR synthesis via modality-invariant latent representation,” IEEE Trans. Med. Imag., vol. 37, no. 3, pp. 803–814, Mar. 2018.
[9] A. Jog, A. Carass, S. Roy, D. L. Pham, and J. L. Prince, “Random forest regression for magnetic resonance image synthesis,” Med. Image Anal., vol. 35, pp. 475–488, Jan. 2017.
[27] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros. (2016). “Image-to-image translation with conditional adversarial networks.” [Online]. Available: https://arxiv.org/abs/1611.07004.
[46] D. Nie et al., “Medical image synthesis with deep convolutional adversarial networks,” IEEE Trans. Biomed. Eng., vol. 65, no. 12, pp. 2720–2730, Dec. 2018.