Unsupervised Medical Image Translation with Adversarial Diffusion Models

基于对抗扩散模型的无监督医学图像翻译

在这里插入图片描述

论文链接:https://arxiv.org/abs/2207.08208

项目链接:https://github.com/icon-lab/SynDiff

Abstract

通过源-目标模态转换对缺失图像进行补全可以提高医学成像方案的多样性。利用生成对抗网络(GAN)进行一次映射是一种普遍的目标图像合成方法。然而,隐式表征图像分布的GAN模型可能会受到样本保真度的限制。本文提出了一种基于对抗扩散建模的新方法SynDiff,以提高医学图像翻译的性能。为了捕获图像分布的直接相关性,SynDiff利用条件扩散过程,逐步将噪声和源图像映射到目标图像上。为了在推理过程中快速准确地进行图像采样,在反向扩散方向上采用对抗投影进行大扩散步长。为了能够在未配对的数据集上进行训练,设计了一个循环一致的架构,该架构具有耦合的扩散和非扩散模块,可以在两种模式之间进行双边转换。广泛的评估阐明了SynDiff在多对比MRI和MRI- CT翻译中对竞争GAN和扩散模型的效用。我们的演示表明,SynDiff在数量和质量上都优于竞争基线。

I. INTRODUCTION

多模态成像是全面评估人体解剖和功能的关键。个体模式捕获的互补组织信息有助于提高下游成像任务的诊断准确性和性能[10]。不幸的是,由于经济和劳动力成本的原因,广泛采用多模式协议是一种欺诈行为。医学图像翻译是一种强大的解决方案,它涉及在获得的源模态[7]-[10]的指导下合成缺失的目标模态。这种恢复是一个病态的问题,给定的非线性变化的组织信号跨越模式[11]-[13]。在这个关键时刻,基于学习的方法通过结合非线性数据驱动的先验来改善问题调节[14]- b[17],从而提供了性能飞跃。

基于学习的图像翻译涉及经过训练的网络模型,以捕捉目标给定源图像的条件分布的先验[18]–[20]。近年来,生成对抗网络(GAN)模型被广泛用于翻译任务,因为它们在图像合成方面具有出色的真实感。同时捕获有关目标分布的信息的判别器引导生成器执行从源到目标图像[27]-[31]的一次映射。基于这种对抗机制,GAN在许多翻译任务中的最新成果已被报道,包括跨MR扫描仪合成[23],多对比度MR合成[21],[25],[27],[32]和跨模态合成[33]-[35]。

虽然功能强大,但GAN模型通过生成器-判别器相互作用间接表征目标模态的分布,而无需评估似然[36]。这种隐式表征可能会导致学习偏差,包括过早收敛和模式崩溃。此外,GAN模型通常采用快速的单次采样过程,没有中间步骤,固有地限制了网络执行映射的可靠性。反过来,这些问题会限制合成图像的质量和多样性。作为一种有希望的替代方法,最近的计算机视觉研究采用了基于显式似然表征和渐进采样过程的扩散模型来提高无条件生成建模任务[37],[38]中的样本保真度。然而,扩散方法在医学图像翻译中的潜力在很大程度上仍未得到开发,部分原因是图像采样的计算负担和规则扩散模型的不成对训练困难[38]。

在这里,我们提出了一种新的对抗扩散模型SynDiff,用于医学图像合成,以执行高效和高保真的模态转换(图1)。给定源图像,SynDiff利用条件扩散来生成目标图像。与常规扩散模型不同,SynDiff采用了快速扩散过程和大步长来提高效率。在反向扩散步骤中,通过一种新的源条件对抗式投影实现精确采样,该投影在源图像的引导下对目标图像样本进行降噪。为了实现无监督学习,在两种模式之间设计了一个具有双边耦合扩散和非扩散过程的循环一致架构(图2)。2)综合论证了MRI多对比和MRI-CT的翻译。我们的结果清楚地表明SynDiff相对于竞争GAN和扩散模型的优越性。

Contributions

  1. 我们介绍了文献中第一个用于高保真医学图像合成的对抗性扩散模型。
  2. 我们介绍了第一种基于扩散的无监督医学图像翻译方法,该方法可以在源-目标模态的未配对数据集上进行训练。
  3. 我们提出了一种新的源条件对抗性投影,用于捕获大步长上的反向转移概率,以实现高效的图像采样。

II. RELATED WORK

为了翻译医学图像,条件GAN通过使用对抗损失[23]训练的生成器执行一次源到目标映射。已知对抗性损失项可以提高对组织结构高频细节的灵敏度,而不是典型的像素级损失[21]。因此,基于GAN的翻译被广泛应用于许多应用中。通过像素损失增强对抗,第一组研究考虑了对跨主题[24],[26]-[30]匹配的源-目标图像配对集的监督训练。为了提高灵活性,其他研究提出了循环一致性或互信息损失,以实现对未配对数据[21],[33],[39]-[44]的无监督学习。一般来说,与普通卷积模型[21]相比,用GAN合成的目标图像的空间灵敏度和真实感得到了增强。也就是说,GAN模型中可能会出现几个问题,包括一次性采样过程的较低映射可靠性[37],在生成器得到适当训练之前判别器的过早收敛[31],以及由于模式崩溃导致的较差的表示多样性[36]。反过来,这些问题会降低样本质量和多样性,限制基于GAN的图像翻译的泛化性能。

作为gan的最新替代品,深度扩散模型在计算机视觉的生成建模任务中引起了人们的兴趣[37],[38]。扩散模型从纯噪声样本开始,通过重复去噪,从期望的分布中生成图像样本。去噪是通过神经网络架构进行训练,以最大限度地提高数据似然相关。由于逐步随机采样过程和明确的似然表征,扩散模型可以提高网络映射的可靠性,从而提高样本质量和多样性。鉴于这种潜力,基于扩散的方法最近被用于单峰成像任务(unimodal imaging tasks),如图像重建[45]-[49],无条件图像生成[50],异常检测[51],[52]。然而,这些方法通常是基于无条件扩散过程设计的处理单模态图像。此外,目前的方法通常涉及依赖大量推理步骤来精确生成图像的香草扩散模型。这种长时间的采样过程在采用扩散模型时引入了计算挑战。

在这里,我们提出了一种新的对抗扩散模型,以提高医学图像翻译的效率和性能。注意,翻译涉及到给定受试者解剖结构的从源模态到目标模态图像的非线性强度映射[11]。由于底层组织结构在模态之间是共同的,源图像包含关键信息,以约束合成目标图像[10]中描述的结构。为了提高目标图像的解剖精度,SynDiff利用条件扩散过程,其中来自实际源图像的高质量结构信息被提供作为反向扩散步骤的条件输入。

为此,采用了一种新的源条件对抗式投影,该投影在几个大扩散步长上提供高效准确的图像采样。还要注意,可靠翻译模型的监督训练需要访问从大量主题中获得的成对源-目标图像[23]。此外,由于经济和时间成本的原因,对大型人群进行多模式成像具有挑战性。虽然可以通过源模式和目标模式之间的双边扩散过程形成循环一致的架构,但规则扩散模型相对缓慢的训练和较差的效率会限制性能[38]。为了提高无监督学习的效率,SynDiff利用新颖的循环一致架构中的非扩散模块来生成与训练集中目标图像配对的源图像估计。据我们所知,SynDiff是第一个用于医学图像合成的对抗扩散模型,也是文献中第一个用于无监督医学图像翻译的基于扩散的方法。基于这些独特的进展,我们首次展示了基于扩散建模的多对比MRI和多模态MRI-CT的无监督翻译。

最近的一些研究考虑了扩散模型的改进,其部分目的与我们提出的方法相关。在自然图像生成的研究中,使用了对抗扩散模型DDGAN来提高反向扩散步骤[53]的效率。DDGAN是一种无条件扩散模型,从噪声开始生成随机图像;它使用一个对抗发生器来进行反向扩散,而不需要源图像的引导。相比之下,SynDiff是一种条件扩散模型,可以在解剖学的源图像和目标图像之间进行转换。它采用源条件对抗式投影进行反向扩散,合成与引导源图像解剖对应的目标图像。除了扩散模块,SynDiff还包含一个非扩散模块,允许无监督训练。针对自然图像的无监督翻译问题,提出了一种非对抗扩散模型UNIT-DDPM[54]。基于源-目标模式共享潜在空间的概念,UNIT-DDPM使用并行扩散过程在大量反向步骤中同时为两种模式生成样本;从源扩散过程中提取的噪声源图像样本用于目标扩散过程中目标图像的生成。相比之下,SynDiff使用对抗性投影在几个步骤中进行有效采样;它利用非扩散模块产生的源图像估计为合成提供高质量的解剖指导。最近的一项研究独立考虑了一种基于条件评分的方法,UMM-CGSM,用于在多对比MRI协议[55]中插入缺失序列。UMM-CGSM采用非对抗模型,推理步骤相对较多;并对源-目标图像的成对数据集进行监督训练。相比之下,SynDiff采用了一种对抗扩散模型,以便在几步内进行有效的采样;它还可以进行无监督学习。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第1张图片

III. THEORY

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第2张图片

A. 去噪扩散模型

规则扩散模型在纯噪声样本和实际图像之间通过T个时间步长的渐进过程映射(图1a)。在正向方向上,少量的高斯噪声被反复添加到输入图像 x 0 ∼ q ( x 0 ) x_0 \sim q(x_0) x0q(x0)上,以从各向同性高斯分布中获得足够大的T的样本 x T x_T xT。正向扩散形成马尔可夫链,其中从 x t − 1 x_{t−1} xt1 x t x_t xt的映射和各自的正向转移概率为:
x t = 1 − β t x t − 1 + β t ϵ , ϵ ∼ N ( 0 , I ) q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 , β t I ) \begin{align} &\boldsymbol{x}_{t}=\sqrt{1-\beta_{t}}\boldsymbol{x}_{t-1}+\sqrt{\beta_{t}}\boldsymbol{\epsilon},\quad\boldsymbol{\epsilon}\sim\mathcal{N}\left(\boldsymbol{0},\boldsymbol{I}\right) \tag{1} \\ &q\left(\boldsymbol{x}_{t}|\boldsymbol{x}_{t-1}\right)=\mathcal{N}\left(\boldsymbol{x}_{t};\sqrt{1-\beta_{t}}\boldsymbol{x}_{t-1},\beta_{t}\boldsymbol{I}\right)\tag{2} \end{align} xt=1βt xt1+βt ϵ,ϵN(0,I)q(xtxt1)=N(xt;1βt xt1,βtI)(1)(2)
其中 β t β_t βt为噪声方差, λ λ λ为添加噪声, N \mathcal{N} N为高斯分布, I I I为单位协方差矩阵。反向扩散也形成了从 x T x_T xT x 0 x_0 x0的马尔可夫链,尽管每一步都是为了逐渐去噪样本。在大T、小 β t β_t βt条件下, x t − 1 x_{t−1} xt1 x t x_t xt之间的反向跃迁概率近似为高斯分布[56],[57]:
q ( x t − 1 ∣ x t ) : = N ( x t − 1 ; μ ( x t , t ) , Σ ( x t , t ) ) (3) q(\boldsymbol{x}_{t-1}|\boldsymbol{x}_{t}):=\mathcal{N}(\boldsymbol{x}_{t-1};\boldsymbol{\mu}(\boldsymbol{x}_{t},t),\boldsymbol{\Sigma}(\boldsymbol{x}_{t},t)) \tag{3} q(xt1xt):=N(xt1;μ(xt,t),Σ(xt,t))(3)
扩散模型通常将每个反向扩散步骤操作为通过神经网络的映射,该神经网络提供 μ μ μ和/或 Σ Σ Σ的估计。然后通过最小化对数似然的变分界来执行训练:
L v b = E q ( x 0 ⋅ T ) [ l o g p θ ( x 0 : T ) q ( x 1 ⋅ T ∣ x 0 ) ] ≤ E q ( x 0 ) [ l o g p θ ( x 0 ) ] (4) L_{vb}=\mathbb{E}_{q(\boldsymbol{x}_0\cdot T)}\left[log\frac{p_\theta(\boldsymbol{x}_0:T)}{q(\boldsymbol{x}_1\cdot T|\boldsymbol{x}_0)}\right]\leq\mathbb{E}_{q(\boldsymbol{x}_0)}[log p_{\boldsymbol{\theta}}(\boldsymbol{x}_0)] \tag{4} Lvb=Eq(x0T)[logq(x1Tx0)pθ(x0:T)]Eq(x0)[logpθ(x0)](4)
式中, E q \mathbb{E}_{q} Eq为对 q q q的期望, p θ p_θ pθ为输入变量联合分布的网络参数化, θ θ θ为网络参数, x 0 : T x_{0:T} x0:T表示时间步长0到T之间的图像样本集合, x 1 : T ∣ x 0 x_{1:T}|x_0 x1:Tx0表示时间步长1到T之间的图像样本,以时间步长0的样本为条件。边界可以分解为:
L v b = l o g p θ ( x 0 ∣ x 1 ) − ∑ t = 1 T K L ( q ( x t − 1 ∣ x t , x 0 ) ∣ ∣ p θ ( x t − 1 ∣ x t ) ) (5) \begin{array}{rcl}L_{vb}&=&log p_{\boldsymbol{\theta}}(\boldsymbol{x}_0|\boldsymbol{x}_1)\\ &&-\sum_{t=1}^T KL(q(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t,\boldsymbol{x}_0)||p_{\boldsymbol{\theta}}(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t))\end{array} \tag{5} Lvb=logpθ(x0x1)t=1TKL(q(xt1xt,x0)∣∣pθ(xt1xt))(5)
式中KL为Kullback-Leibler散度,由于不依赖于θ,故省略 K L ( q ( x T ∣ x 0 ) ∣ ∣ p ( x T ) ) KL(q(x_T |x_0) || p(x_T)) KL(q(xTx0)∣∣p(xT))。一个常见的参数化忽略了 Σ Σ Σ来关注 µ µ µ
μ θ ( x t , t ) = 1 ψ t ( x t − β t 1 − ψ ‾ t ϵ θ ( x t , t ) ) (6) \boldsymbol{\mu_\theta}(\boldsymbol{x}_t,t)=\frac{1}{\sqrt{\psi_t}}\left(\boldsymbol{x}_t-\frac{\beta_t}{\sqrt{1-\overline{\psi}_t}}\boldsymbol{\epsilon}_\theta(\boldsymbol{x}_t,t)\right) \tag{6} μθ(xt,t)=ψt 1 xt1ψt βtϵθ(xt,t) (6)
其中, ψ t = 1 − β t ψ_t = 1 - β_t ψt=1βt ψ ‾ t = ∏ r = [ 0 , 1 , . . . , t ] ψ r \overline{{\psi}}_{t}=\prod_{r=[0,1,...,t]}\psi_{r} ψt=r=[0,1,...,t]ψr。在公式6中,如果使用网络通过最小化以下损失[58]来估计附加噪声 λ λ λ,则可以推导出 µ θ µ_θ µθ
L e r r = E t , x 0 , ϵ [ ∥ ϵ − ϵ θ ( α ‾ t x 0 + 1 − α ‾ t ϵ , t ) ∥ 2 2 ] (7) L_{err}=\mathbb{E}_{t,\boldsymbol{x}_0,\boldsymbol{\epsilon}}\left[\|\boldsymbol{\epsilon}-\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\sqrt{\overline{\alpha}}_t\boldsymbol{x}_0+\sqrt{1-\overline{\alpha}}_t\boldsymbol{\epsilon},t)\|_2^2\right] \tag{7} Lerr=Et,x0,ϵ[ϵϵθ(α tx0+1α tϵ,t)22](7)
其中 t t t x 0 x_0 x0 λ λ λ分别从离散均匀分布 U ( 0 , t ) U(0, t) U(0,t) q ( x 0 ) q(x_0) q(x0) N ( 0 , I ) \mathcal{N} (0, I) N(0,I)中采样。在推理过程中,从随机样本 x T ∼ N ( 0 , I ) x_T \sim \mathcal{N} (0, I) xTN(0,I)开始执行反向扩散步骤。对于每个步骤 t ∈ T … 1 t∈T…1 tT1 µ µ µ是基于网络估计 ϵ θ ϵ_θ ϵθ使用公式 6推导出来的, x t − 1 x_{t−1} xt1是基于公式3采样的。

B. SynDiff

在这里,我们介绍了一种新的扩散模型,用于在给定解剖结构的源和目标模式之间进行高效,高保真的转换。

SynDiff使用了一个带有源条件对抗式投影的扩散模块,用于快速准确的反向扩散采样(图1b)。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第3张图片

它还使用了一个非扩散模块来估计与相应目标图像配对的源图像,从而实现无监督学习(图2)。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第4张图片

下面详细介绍了构成扩散模块基础的对抗扩散过程、网络架构和SynDiff的学习过程。

1) 对抗性扩散过程(Adversarial Diffusion Process):常规扩散模型规定了相对较大的T,使得步长足够小以满足公式3中的正态性假设,但这限制了图像生成的效率。在这里,我们建议采用以下步骤进行快速扩散:
x t = 1 − γ t x t − k + γ t ϵ q ( x t ∣ x t − k ) = N ( x t ; 1 − γ t x t − k , γ t I ) \begin{align} &\boldsymbol{x}_{t}=\sqrt{1-\gamma_{t}}\boldsymbol{x}_{t-k}+\sqrt{\gamma_{t}}\boldsymbol{\epsilon} \tag{8} \\ &q(\boldsymbol{x}_{t}|\boldsymbol{x}_{t-k})=\mathcal{N}\left(\boldsymbol{x}_{t};\sqrt{1-\gamma_{t}}\boldsymbol{x}_{t-k},\gamma_{t}\boldsymbol{I}\right) \tag{9} \end{align} xt=1γt xtk+γt ϵq(xtxtk)=N(xt;1γt xtk,γtI)(8)(9)
其中 k > > 1 k>>1 k>>1是步长。噪声方差 γ t γ_t γt设为:
γ t = 1 − e β ‾ min ⁡ k T − ( β ‾ max ⁡ − β ‾ min ⁡ ) 2 t k − k 2 2 T 2 (10) \gamma_t=1-\mathrm{e}^{\overline{\beta}_{\min}\frac{k}{T}-(\overline{\beta}_{\max}-\overline{\beta}_{\min})\frac{2tk-k^2}{2T^2}} \tag{10} γt=1eβminTk(βmaxβmin)2T22tkk2(10)
β ‾ min ⁡ \overline{\beta}_{\min} βmin β ‾ max ⁡ \overline{\beta}_{\max} βmax控制着噪声方差在指数调度[59]中的进展。

在医学图像翻译过程中,源图像(y)的引导是可用的,因此提出了一种反向扩散方向的条件过程。注意,对于 k > > 1 k >> 1 k>>1, q ( x t − k ∣ x t , y ) q(x_{t−k}|x_t, y) q(xtkxt,y)没有封闭形式表达式,用于计算公式4的正态性假设打破了[38]。在这里,我们引入了一种新的源-条件对抗性投影,以捕获条件扩散模型中大 k k k的复杂转移概率 q ( x t − k ∣ x t , y ) q(x_{t−k}|x_t, y) q(xtkxt,y),灵感来自最近一篇关于使用对抗性学习捕获 q ( x t − k ∣ x t ) q(x_{t−k}|x_t) q(xtkxt)[53]无条件生成自然图像的报告。在SynDiff中,条件生成器 G θ ( x t , y , t ) G_θ(x_t, y, t) Gθ(xt,y,t)在每一个反向步骤中逐步去噪,合成出 x ^ t − k ∼ p θ ( x t − k ∣ x t , y ) \hat{x}_{t - k} \sim p_θ(x_{t - k}|x_t, y) x^tkpθ(xtkxt,y) G θ G_θ Gθ接收图像对 ( x t , y ) (x_t,y) (xt,y)作为双通道输入,提取中间特征映射 f i f_i fi,其中 i ∈ [ 1 , … , N ] i∈[1,…,N] i[1,,N]是编解码器结构[59]中的子块索引。给定 t t t,计算可学习的时间嵌入 m m m,并将该嵌入作为通道特定的偏置项添加到每个子块[59]中的特征映射上: f i ′ = f i + m f'_i = f_i + m fi=fi+m。同时,判别器 D θ ( { x ^ t − k   o r   x t − k } , x t , t ) D_{\boldsymbol{\theta}}(\{{\hat{\boldsymbol{x}}}_{t-k}{\mathrm{~or~}}\boldsymbol{x}_{t-k}\},\boldsymbol{x}_{t},t) Dθ({x^tk or xtk},xt,t)区分从估计的和真实的去噪分布 ( p θ ( x t − k ∣ x t , y ) v s . q ( x t − k ∣ x t , y ) ) (p_θ(x_{t−k}|x_t, y) vs. q(x_{t−k}|x_t, y)) (pθ(xtkxt,y)vs.q(xtkxt,y))中提取的样本。 D θ D_θ Dθ接收 ( x t , x ^ t − k ) (x_t,\hat{x}_{t−k}) (xt,x^tk) ( x t , x t − k ) (x_t,x_{t−k}) (xt,xtk)作为双通道输入。时间嵌入 m m m也作为偏置项添加到跨 D θ D_θ Dθ的特征映射上。对 G θ G_θ Gθ[60]采用不饱和对抗损失:
L G θ = E t , q ( x t ∣ x 0 , y ) , p θ ( x t − k ∣ x t , y ) [ − l o g ( D θ ( x ^ t − k ) ) ] (11) L_{G_{\boldsymbol{\theta}}}=\mathbb{E}_{t,q(\boldsymbol{x}_{t}|\boldsymbol{x}_{0},\boldsymbol{y}),p_{\boldsymbol{\theta}}(\boldsymbol{x}_{t-k}|\boldsymbol{x}_{t},\boldsymbol{y})}[-log(D_{\boldsymbol{\theta}}(\hat{\boldsymbol{x}}_{t-k}))] \tag{11} LGθ=Et,q(xtx0,y),pθ(xtkxt,y)[log(Dθ(x^tk))](11)
其中 t   U ( 0 , k , … , T ) t ~ U({0, k,…, T}) t U(0,k,,T),为简洁起见,对判别器参数进行了缩写。 D θ D_θ Dθ也采用具有梯度惩罚的非饱和对抗损失[61]:
L D θ = E t , q ( x t ∣ x 0 , y ) [ E q ( x t − k ∣ x t , y ) [ − log ⁡ ( D θ ( x t − k ) ) ] + E p θ ( x t − k ∣ x t , y ) [ − log ⁡ ( 1 − D θ ( x ^ t − k ) ) ] + η E q ( x t − k ∣ x t , y ) ∥ ∇ x t − k D θ ( x t − k ) ∥ 2 2 ] (12) \begin{array}{r} L_{D_{\boldsymbol{\theta}}}=\mathbb{E}_{t, q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_0, \boldsymbol{y}\right)}\left[\mathbb{E}_{q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{y}\right)}\left[-\log \left(D_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-k}\right)\right)\right]\right. \\ +\mathbb{E}_{p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{y}\right)}\left[-\log \left(1-D_{\boldsymbol{\theta}}\left(\hat{\boldsymbol{x}}_{t-k}\right)\right)\right] \\ \left.+\eta \mathbb{E}_{q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{y}\right)}\left\|\nabla_{\boldsymbol{x}_{t-k}} D_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-k}\right)\right\|_2^2\right] \end{array} \tag{12} LDθ=Et,q(xtx0,y)[Eq(xtkxt,y)[log(Dθ(xtk))]+Epθ(xtkxt,y)[log(1Dθ(x^tk))]+ηEq(xtkxt,y)xtkDθ(xtk)22](12)
其中 η η η是梯度惩罚的权值。

公式11-12的求值需要从未知的 q ( x t − k ∣ x t , y ) q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{y}\right) q(xtkxt,y)中采样。同样, x 0 x_0 x0 y y y是同一解剖结构的非线性相关图像, x t x_t xt在给定 x 0 x_0 x0的情况下与 y y y条件无关。因此,如果从特定 y y y x 0 x_0 x0的非线性映射是内射的(即一对一),则反转概率可以表示为 q ( x t − k ∣ x t , x 0 , y ) = q ( x t − k ∣ x t , x 0 ) q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{x}_0, \boldsymbol{y}\right)=q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{x}_0\right) q(xtkxt,x0,y)=q(xtkxt,x0)[38]。然后可以使用贝叶斯规则来根据前向转移概率来表示去噪分布:
q ( x t − k ∣ x t , x 0 ) = q ( x t ∣ x t − k , x 0 ) q ( x t − k ∣ x 0 ) q ( x t ∣ x 0 ) (13) q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{x}_0\right)=q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_{t-k}, \boldsymbol{x}_0\right) \frac{q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_0\right)}{q\left(\boldsymbol{x}_t \mid \boldsymbol{x}_0\right)} \tag{13} q(xtkxt,x0)=q(xtxtk,x0)q(xtx0)q(xtkx0)(13)
利用公式8,可以得到 q ( x t − k ∣ x t , x 0 ) = q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{x}_0\right)= q(xtkxt,x0)= N ( x t − k ; μ ‾ ( x t , x 0 ) , γ ˉ I ) \mathcal{N}\left(\boldsymbol{x}_{t-k} ; \overline{\boldsymbol{\mu}}\left(\boldsymbol{x}_t, \boldsymbol{x}_0\right), \bar{\gamma} \boldsymbol{I}\right) N(xtk;μ(xt,x0),γˉI),参数如下:
μ ‾ = α ˉ t − k γ t 1 − α ˉ t x 0 + α t ( 1 − α ˉ t − k ) 1 − α ˉ t x t , γ ˉ = 1 − α ˉ t − k 1 − α ˉ t γ t (14) \overline{\boldsymbol{\mu}}=\frac{\sqrt{\bar{\alpha}_{t-k}} \gamma_t}{1-\bar{\alpha}_t} \boldsymbol{x}_0+\frac{\sqrt{\alpha_t}\left(1-\bar{\alpha}_{t-k}\right)}{1-\bar{\alpha}_t} \boldsymbol{x}_t, \bar{\gamma}=\frac{1-\bar{\alpha}_{t-k}}{1-\bar{\alpha}_t} \gamma_t \tag{14} μ=1αˉtαˉtk γtx0+1αˉtαt (1αˉtk)xt,γˉ=1αˉt1αˉtkγt(14)
其中 α t = 1 − γ t \alpha_t=1-\gamma_t αt=1γt α ˉ t = ∏ r = [ 0 , k , … , t ] α r \bar{\alpha}_t=\prod_{r=[0, k, \ldots, t]} \alpha_r αˉt=r=[0,k,,t]αr

公式11-12也需要从网络参数化去噪分布 p θ ( x t − k ∣ x t , y ) p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{y}\right) pθ(xtkxt,y)中采样。一个平凡的尽管是确定性的样本将是生成器输出,即 x ^ t − k ∼ δ ( x t − k − G θ ( x t , y , t ) ) \hat{\boldsymbol{x}}_{t-k} \sim \delta\left(\boldsymbol{x}_{t-k}-G_{\boldsymbol{\theta}}\left(\boldsymbol{x}_t, \boldsymbol{y}, t\right)\right) x^tkδ(xtkGθ(xt,y,t))。为了保持随机性,我们将生成器分布改为如下操作:
p θ ( x t − k ∣ x t , y ) : = q ( x t − k ∣ x t , x ~ 0 = G θ ( x t , y , t ) ) (15) p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \boldsymbol{y}\right):=q\left(\boldsymbol{x}_{t-k} \mid \boldsymbol{x}_t, \tilde{\boldsymbol{x}}_0=G_{\boldsymbol{\theta}}\left(\boldsymbol{x}_t, \boldsymbol{y}, t\right)\right) \tag{15} pθ(xtkxt,y):=q(xtkxt,x~0=Gθ(xt,y,t))(15)
其中 G θ G_{\boldsymbol{\theta}} Gθ预测了 x ~ 0 \tilde{\boldsymbol{x}}_0 x~0,即 t / k t / k t/k x t \boldsymbol{x}_t xt的距离。在总共 T / k T / k T/k个反向扩散步骤之后,将通过采样 x ^ 0 ∼ p θ ( x 0 ∣ x k , y ) \hat{\boldsymbol{x}}_0 \sim p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_0 \mid \boldsymbol{x}_k, \boldsymbol{y}\right) x^0pθ(x0xk,y)获得最终的去噪图像。

2) 网络架构:为了合成目标模态图像,公式15中参数化的反向扩散步骤需要同一解剖结构的源模态图像的指导。然而,对于模态A, B,训练集可能分别只包括未配对的图像 x 0 A x^A_0 x0A, x 0 B x^B_0 x0B。为了从未配对的训练集中学习,我们引入了一个基于非扩散和扩散模块的循环一致架构,该架构在两种模式之间双向转换。

Non-diffusive模块。SynDiff利用非扩散模块来估计与训练集中每个目标图像配对的源图像。给定模态A的目标图像 x 0 A x^A_0 x0A,产生模态B的源图像估计 y ~ B \tilde{y}^B y~B;给定目标图像 x 0 B x^B_0 x0B,产生源图像估计 y ~ A \tilde{y}^ A y~A。为了做到这一点,[21]使用了两个带参数 ϕ A , B {\phi^{A,B}} ϕA,B的发生器-判别器对 ( G ϕ A , D ϕ A ) (G_{\phi^{A}},D_{\phi^{A}}) (GϕA,DϕA) ( G ϕ B , D ϕ B ) (G_{\phi^{B}},D_{\phi^{B}}) (GϕB,DϕB)。生成器产生估算值 y ~ A , B \tilde{y}^{A,B} y~A,B为:
y ~ B = G ϕ B ( x 0 A ) y ~ A = G ϕ A ( x 0 B ) (16) \begin{aligned} \tilde{\boldsymbol{y}}^B&=G_{\phi^B}(\boldsymbol{x}_0^A)\\\tilde{\boldsymbol{y}}^A&=G_{\phi^A}(\boldsymbol{x}_0^B) \end{aligned} \tag{16} y~By~A=GϕB(x0A)=GϕA(x0B)(16)
G ϕ A , B G_{\phi^{A,B}} GϕA,B采用非饱和对抗损失:
L G ϕ = E p ϕ ( y ∣ x 0 ) [ − l o g ( D ϕ ( y ~ ) ) ] (18) L_{G_{\phi}}=\mathbb{E}_{p_{\phi}(\boldsymbol{y}|\boldsymbol{x}_{0})}[-log(D_{\boldsymbol{\phi}}(\tilde{\boldsymbol{y}}))] \tag{18} LGϕ=Epϕ(yx0)[log(Dϕ(y~))](18)
其中 p φ ( y ∣ x 0 ) p_φ (y|x_0) pφ(yx0)表示给定目标图像的源的条件分布的网络参数化,为简洁起见,省略对判别器的条件输入 x 0 x_0 x0。同时,判别器通过采用非饱和对抗损失来区分估计样本与真实源图像:
L D ϕ = E q ( y ∣ x 0 ) [ − l o g ( D ϕ ( y ) ) ] + E p ϕ ( y ∣ x 0 ) [ − l o g ( 1 − D ϕ ( y ~ ) ) ] (18) \begin{array}{rl}{{L_{D_{\phi}}=}}&{{\mathbb{E}_{q(\boldsymbol{y}|\boldsymbol{x}_{0})}[-log(D_{\boldsymbol{\phi}}(\boldsymbol{y}))]+}}\\&{{\mathbb{E}_{p_{\boldsymbol{\phi}}(\boldsymbol{y}|\boldsymbol{x}_{0})}[-log(1-D_{\boldsymbol{\phi}}(\tilde{\boldsymbol{y}}))]}}\end{array} \tag{18} LDϕ=Eq(yx0)[log(Dϕ(y))]+Epϕ(yx0)[log(1Dϕ(y~))](18)
其中 q ( y ∣ x 0 ) q(y|x_0) q(yx0)为给定目标图像的源的真实条件分布。注意,对于 D ϕ B D_ϕ^B DϕB y y y对应于 x 0 B x^B_0 x0B,条件输入为 x 0 A x^A_0 x0A;而对于 D ϕ A D_ϕ^A DϕA y y y对应于 x 0 A x^A_0 x0A,条件输入为 x 0 B x^B_0 x0B

扩散模块。然后,SynDiff利用扩散模块合成目标图像,给出来自非扩散模块的源图像估计作为指导。给定 y ~ B \tilde{y}^B y~B,生成合成目标图像 x ^ A \hat{x}^A x^A;给定 y ~ A \tilde{y}^A y~A,产生合成目标图像 x ^ B \hat{x}^B x^B。为此,使用两个对抗性扩散过程,分别使用参数 θ A , B θ^{A,B} θA,B的生成-判别器对 ( G θ A , D θ A ) (G_θ^A,D_θ^A) (GθA,DθA) ( G θ B , D θ B ) (G_θ^B,D_θ^B) (GθB,DθB)。以时间步长为T的高斯噪声图像 x T A , B x^{A,B}_T xTA,B,以 T / k T /k T/k个反向扩散步合成目标图像。在每一步中,生成器首先产生去噪目标图像的确定性估计,如第III-B.1节所述:
x ~ 0 A = G θ A ( x t A , y = y ~ B , t ) x ~ 0 B = G θ B ( x t B , y = y ~ A , t ) (19) \begin{aligned}\tilde{\boldsymbol{x}}_0^A&=G_{\boldsymbol{\theta}^A}(\boldsymbol{x}_t^A,\boldsymbol{y}=\tilde{\boldsymbol{y}}^B,t)\\\tilde{\boldsymbol{x}}_0^B&=G_{\boldsymbol{\theta}^B}(\boldsymbol{x}_t^B,\boldsymbol{y}=\tilde{\boldsymbol{y}}^A,t)\end{aligned} \tag{19} x~0Ax~0B=GθA(xtA,y=y~B,t)=GθB(xtB,y=y~A,t)(19)
然后,利用公式15中描述的各模态去噪分布对目标图像进行合成:
x ^ t − k A ∼ q ( x t − k A ∣ x t A , x ~ 0 A ) x ^ t − k B ∼ q ( x t − k B ∣ x t B , x ~ 0 B ) (20) \begin{array}{l}\hat{\boldsymbol{x}}_{t-k}^A\sim q(\boldsymbol{x}_{t-k}^A|\boldsymbol{x}_t^A,\tilde{\boldsymbol{x}}_0^A)\\\hat{\boldsymbol{x}}_{t-k}^B\sim q(\boldsymbol{x}_{t-k}^B|\boldsymbol{x}_t^B,\tilde{\boldsymbol{x}}_0^B)\end{array} \tag{20} x^tkAq(xtkAxtA,x~0A)x^tkBq(xtkBxtB,x~0B)(20)
3) 学习过程:为了实现无监督学习,SynDiff通过将真实目标图像与其重建图像进行比较来利用循环一致性损失。在扩散模块中,将重建图像作为合成目标图像;在非扩散模块中,源图像估计通过生成器投影到目标域:
x ˇ 0 A = G ϕ A ( y ~ B ) x ˇ 0 B = G ϕ B ( y ~ A ) (21) \begin{matrix}\check{\boldsymbol{x}}_0^A=G_{\boldsymbol{\phi}^A}(\tilde{\boldsymbol{y}}^B)\\\check{\boldsymbol{x}}_0^B=G_{\boldsymbol{\phi}^B}(\tilde{\boldsymbol{y}}^A)\end{matrix} \tag{21} xˇ0A=GϕA(y~B)xˇ0B=GϕB(y~A)(21)
其中 x ~ 0 A , B \tilde{x}^{A, B}_0 x~0A,B为对应的重构图。然后将循环一致性损失定义为:
L c y c = E t , q ( x 0 A , B ) , q ( x t A , B ∣ x 0 A , B ) [ λ 1 ϕ ( ∥ x 0 A − x ˘ 0 A ∥ 1 + ∥ x 0 B − x ˘ 0 B ∥ 1 ) + λ 1 θ ( ∥ x 0 A − x ^ 0 A ∥ 1 + ∥ x 0 B − x ^ 0 B ∥ 1 ) ] (22) \begin{aligned} & L_{\mathrm{cyc}}=\mathbb{E}_{t, q\left(\boldsymbol{x}_0^{A, B}\right), q\left(\boldsymbol{x}_t^{A, B} \mid \boldsymbol{x}_0^{A, B}\right)}\left[\lambda _ { 1 \phi } \left(\left\|\boldsymbol{x}_0^A-\breve{\boldsymbol{x}}_0^A\right\|_1+\right.\right. \\ & \left.\left.\left\|\boldsymbol{x}_0^B-\breve{\boldsymbol{x}}_0^B\right\|_1\right)+\lambda_{1 \theta}\left(\left\|\boldsymbol{x}_0^A-\hat{\boldsymbol{x}}_0^A\right\|_1+\left\|\boldsymbol{x}_0^B-\hat{\boldsymbol{x}}_0^B\right\|_1\right)\right] \end{aligned} \tag{22} Lcyc=Et,q(x0A,B),q(xtA,Bx0A,B)[λ1ϕ( x0Ax˘0A 1+ x0Bx˘0B 1)+λ1θ( x0Ax^0A 1+ x0Bx^0B 1)](22)
其中 λ 1 ϕ , 1 θ λ_{1ϕ,1θ} λ1ϕ,1θ分别为来自非扩散模和扩散模的循环一致性损失项的权值,取两幅图像差的L1-范数作为一致性度量[21]。扩散模块和非扩散模块在没有任何预训练过程的情况下进行联合训练。因此,生成器的总损失为:
L G total  = λ 2 ϕ ( L G ϕ A + L G ϕ B ) + λ 2 θ ( L G θ A + L G θ B ) + L c y c (23) L_G^{\text {total }}=\lambda_{2 \phi}\left(L_{G_\phi^A}+L_{G_\phi^B}\right)+\lambda_{2 \theta}\left(L_{G_\theta^A}+L_{G_\theta^B}\right)+L_{\mathrm{cyc}} \tag{23} LGtotal =λ2ϕ(LGϕA+LGϕB)+λ2θ(LGθA+LGθB)+Lcyc(23)
其中 λ 2 ϕ , 2 θ λ_{2ϕ,2θ} λ2ϕ,2θ分别是来自非扩散模块和扩散模块的对抗性损失项的权重,对于每个模态, L G ϕ L_{G_\phi} LGϕ定义如公式17, L G θ L_{G_\theta} LGθ定义如公式 11。总的判别器损失为:
L D total  = λ 2 ϕ ( L D ϕ A + L D ϕ B ) + λ 2 θ ( L D θ A + L D θ B ) (24) L_D^{\text {total }}=\lambda_{2 \phi}\left(L_{D_\phi^A}+L_{D_\phi^B}\right)+\lambda_{2 \theta}\left(L_{D_\theta^A}+L_{D_\theta^B}\right) \tag{24} LDtotal =λ2ϕ(LDϕA+LDϕB)+λ2θ(LDθA+LDθB)(24)
其中 L D ϕ L_{D_\phi} LDϕ定义如公式18, L D θ L_{D_\theta} LDθ定义如公式12。

在训练过程中,必须使用非扩散模块来产生与给定目标图像配对的源图像的估计。然而,在推理过程中,任务是在给定已获取的解剖学源图像的情况下合成未获取的目标图像,因此只需要扩散模块中执行所需任务的相应生成器。例如,为了进行A→B(即源→目标)的映射,使用 G θ B ( x t B , y A , t ) G_{\boldsymbol{\theta}^B}\left(\boldsymbol{x}_t^B, \boldsymbol{y}^A, t\right) GθB(xtB,yA,t),其中 x t B \boldsymbol{x}_t^B xtB是在时间步长t时模态B的目标图像样本, y A \boldsymbol{y}^A yA是作为输入提供的模态A的获取的源图像。从时间步长T开始推理,从 N ( 0 , I ) \mathcal{N}(\mathbf{0}, \boldsymbol{I}) N(0,I)中提取高斯噪声样本 x T B \boldsymbol{x}_T^B xTB,并将每个反向扩散步骤结束时产生的带噪声目标图像样本作为下一步的输入目标图像样本。按照公式19-20所示,共进行 T / k T / k T/k次反向扩散步骤,以在时间步长0处获得合成目标图像的 x ^ 0 B \hat{\boldsymbol{x}}_0^B x^0B

IV. METHODS

A. 数据集

我们在两个多对比脑MRI数据集(IXI1, BRA TS[62])和多模态骨盆MRI数据集[63]上验证了SynDiff。在每个数据集中,执行三向分裂以创建无主题重叠的训练,验证和测试集。虽然所有的无监督医学图像翻译模型都是在未配对的图像上训练的,但性能评估需要存在配对注册的源-目标卷。因此,在验证和测试集中,给定受试者的单独体积在空间上进行配对注册,以便计算定量指标。FSL通过仿射变换和互信息损失实现配准[64]。在每个受试者中,每个成像体积分别归一化为平均强度1。然后将受试者之间的最大体素强度归一化为1,以确保强度范围为[0,1]。在建模之前,为了在所有数据集中获得一致的256×256图像大小,需要对横截面图像进行零填充。

1) IXI数据集:对40名健康受试者的T1-、T2-、PD-加权图像进行分析,其中(25、5、10)名受试者保留用于(训练、验证、测试)。T2和PD体素被配对注册到验证/测试集中的T1卷上。每名受试者取100张脑组织轴向横切面。扫描参数T1为TE=4.6ms, TR=9.81ms;T2时TE=100ms, TR=8178.34ms;PD图像TE=8ms, TR=8178.34ms;共同的空间分辨率=0.94×0.94×1.2mm3

2) BRA TS数据集:对55例胶质瘤患者的T1-, T2-,流体衰减反转恢复(FLAIR)加权脑MR图像进行分析,(训练,验证,测试)分割(25,10,20)名受试者。T2和FLAIR卷被注册到验证/测试集中的T1卷上。在每个受试者中,选择100个包含脑组织的轴向横切面。不同的扫描协议在不同的机构使用。

3) 骨盆MRI-CT数据集:对15名受试者的骨盆T1、T2加权MRI和CT图像进行分析,对(9,2,4)名受试者进行(训练、验证、测试)分割。在验证/测试集中,T1和CT体积被注册到T2体积上。在每个受试者中选取90个轴向截面。对于T1扫描,规定TE=7.2ms, TR=500-600ms, 0.88×0.88×3mm3分辨率,或TE=4.77ms, TR=7.46ms, 1.10×1.10×2mm3分辨率。T2扫描规定TE=97ms, TR=60006600ms,分辨率0.88×0.88×2.50mm3,或TE=91-102ms, TR= 12000-16000ms,分辨率0.88-1.10×0.88-1.10×2.50mm3。对于CT扫描,规定0.10×0.10×3mm3分辨率,Kernel=B30f或0.10×0.10×2mm3分辨率,Kernel=FC17。为了实现加速MRI扫描的合成任务[65],[66],对全采样MRI数据在二维上进行回顾性欠采样4倍,以16倍加速速率获得低分辨率图像[65]。

B. 对比方法

我们针对几种最先进的非注意GAN、注意GAN和扩散模型阐明SynDiff。

所有竞争的方法都对未配对的源和目标模态进行无监督学习。对于每个模型,执行超参数选择以最大化验证集上的性能。在翻译任务中选择了一组通用参数,这些参数在保持高空间敏锐度的同时提供了近乎最佳的定量性能。所选参数包括训练次数、优化器的学习率和每个模型的损失项权重。此外,还选择了扩散模型的步长。

1) SynDiff:在非扩散模块中,生成器使用具有3个编码、6个残差和3个解码块的ResNet主干[67];判别器使用带有两个卷积层的六个块,然后进行两次空间下采样。在扩散模块中,生成器使用具有六个编码和解码块的UNet主干[68]。每个块有两个残差子块,后面跟着一个卷积层。对于编码,卷积层的特征映射分辨率减半,通道维数每隔一个块增加一倍。对于解码,卷积层的分辨率翻倍,通道维数每隔一个块减半。残差子锁通过一个双层多层感知器(MLP)[59]对32维正弦位置编码进行时域嵌入。他们还从三层MLP接收256维随机潜在空间,通过自适应归一化调制特征映射[69]。判别器使用六个具有两个卷积层的块,然后进行两次下采样,并将时间嵌入添加到每个块的特征映射上。交叉验证的超参数为:50 epoch, 10−4学习率,µ=0.5,T =1000,步长k=250,T /k=4扩散步长。循环一致性和对抗损失项的权重分别为 λ 1 ϕ , 1 θ = 0.5 λ_{1ϕ,1θ}=0.5 λ1ϕ,1θ=0.5 λ 2 ϕ , 2 θ = 1 λ_{2ϕ,2θ}=1 λ2ϕ,2θ=1。根据βmin=0.1, βmax=20设置噪声方差表的下界和上界。

2) cGAN:采用[21]的结构和损失函数,考虑循环一致的GAN模型。cGAN包括两个具有ResNet主干的生成器和两个具有级联卷积块的判别器,然后是实例规范化。交叉验证的超参数为100个epoch,在最后50个epoch中,2 × 10−4学习率线性衰减到0。循环一致性和对抗性损失的权重分别为100和1。

3) UNIT:考虑一种无监督GAN模型,该模型假设源-目标模态之间存在共享的潜在空间,其架构和损失函数采用[70]。单元包括两个判别器和两个翻译与ResNet骨干网在一个循环设置。翻译器包含并行连接的域图像编码器和具有共享潜在空间的生成器。判别器包含一个级联的下采样卷积块。交叉验证的超参数为100次,10−4学习率,循环一致性、对抗性和重建损失的权重分别为10、1和10。

4) MUNIT:考虑了一种无监督GAN模型,该模型假设共享内容空间,尽管源-目标模式的风格分布不同,其架构和损失函数采用了[71]。MUNIT由判别器对、带ResNet主干的内容编码器、MLP风格编码器和带ResNet主干的解码器组成。交叉验证的超参数为100次,学习率为10−4。图像、内容、风格重建、对抗损失的权重分别为10、1、1和1。

5) AttGAN:在无监督翻译中采用了带有注意生成器的循环一致GAN模型[72]。AttGAN包括两个卷积注意力UNet生成器和两个patch判别器[72]。交叉验证的超参数为100个epoch,在最后50个epoch中,2 × 10−4学习率线性衰减到0。循环一致性和对抗性损失的权重分别为100和1。

6) SAGAN:采用带有自注意生成器的循环一致GAN模型[73]进行无监督翻译。SAGAN由两个基于ResNet骨干网的生成器和两个patch discriminator组成,其中ResNet骨干网在最后两个残差块中具有自关注层[73]。交叉验证的超参数为100个epoch,在最后50个epoch中,2 × 10−4学习率线性衰减到0。循环一致性和对抗性损失的权重分别为100和1。

7) DDPM:考虑了一种具有改进采样效率的最新扩散模型,其结构和损失函数采用了[74]。源模态作为反向扩散步骤的条件输入,并且通过像SynDiff一样包含非扩散模块来实现循环一致学习。交叉验证的超参数为50 epoch, 10−4学习率,T =1000, k=1, 1000扩散步长。余弦噪声表如[74]所示。循环一致性损失的权重为1。

8) UNIT-DDPM:考虑了一种允许无监督训练的最新扩散模型,其架构和损失函数采用[54]。UNIT-DDPM包括源模态和目标模态的两个平行扩散过程,其中每个模态的噪声样本作为条件输入,用于另一个模态的反向扩散步骤。交叉验证的超参数为50 epoch, 10−4学习率,T =1000, k=1, 1000扩散步长。使用余弦噪声表[74]。循环一致性损失的权重为1,释放时间为1,见[54]。

C. 建模过程

所有模型都是使用PyTorch框架在Python中实现的。模型采用 β 1 = 0.5 β_1=0.5 β1=0.5 β 2 = 0.9 β_2=0.9 β2=0.9的Adam优化器进行训练。模型在配备Nvidia RTX 3090 GPU的工作站上执行。在每个数据集内的测试集上评估模型性能。为了公平比较,基于给定各自源图像的每个截面合成的单个目标图像,对确定性和随机方法进行了评估。性能评估通过峰值信噪比(PSNR),结构相似指数(SSIM)指标在有条件的合成任务,其中有一个ground truth参考。对于无条件任务,通过比较随机合成图像的总体分布和实际图像的总体分布,使用FR起始距离(FID)评分来评估生成的随机合成图像的感知质量。在评估之前,所有图像都按其平均值归一化,然后根据参考图像中的最大强度归一化给定截面中的所有检查图像。通过非参数Wilcoxon符号秩检验评估竞争方法之间性能差异的显著性(p<0.05)。

V. RESULTS

A. MRI多对比翻译

我们对比了SynDiff用于无监督MRI对比翻译的最先进的非注意GAN (cGAN, UNIT, MUNIT),注意GAN (AttGAN, SAGAN)和规则扩散(DDPM, UNIT-DDPM)模型。首先,对IXI健康受试者的脑图像进行实验。表2列出了T2→T1、T1→T2、PD→T1、T1→PD、PD→T2和T2→PD合成任务的性能指标。SynDiff在所有任务中产生最高的性能(p<0.05),除了PD→T2,其中cGAN表现相似。平均而言,SynDiff的PSNR和SSIM分别比非注意型GANs高2.2dB和2.5%,注意型Gan高1.4dB和1.2%,规则扩散模型高5.7dB和6.6%(p<0.05)。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第5张图片

代表性图像如图3所示。GAN在组织造影术中表现为噪声或局部不准确。规则的扩散模型遭受一定程度空间扭曲和模糊。UNIT-DDPM显示相对较低的解剖精度,偶尔组织特征丢失。相比之下,SynDiff产生更低的噪声和伪影,并且在组织描绘中具有更高的准确性。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第6张图片

接下来,对BRATS中神经胶质瘤患者的大脑图像进行了实验。表三列出了T2→T1、T1→T2、FLAIR→T1、T1→FLAIR、FLAIR→T2和T2→FLAIR任务的性能指标。除了cGAN在T1→FLAIR中产生相似的PSNR,并且在FLAIR→T1中表现相似外,SynDiff在所有任务中再次获得最高的合成性能(p<0.05)。平均而言,SynDiff模型优于非注意GAN模型1.5dB的PSNR和3.5%的SSIM,优于注意GAN模型2.7dB的PSNR和5.0%的SSIM,优于扩散模型4.2dB的PSNR和6.8%的SSIM (p<0.05)。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第7张图片

代表性图像如图4所示。非注意力GAN显示噪音和人工制品水平升高。注意GAN偶尔会受到源图像对比度特征泄漏的影响(例如,信号水平明显较亮或较暗的区域产生幻觉)。常规扩散模型显示出一定程度的模糊和特征损失。相反,SynDiff生成具有低噪声和伪影的高保真目标图像。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第8张图片

B. 多模态翻译

我们还展示了SynDiff在不同模式之间的无监督翻译。特别地,实验使用SynDiff、非注意GAN、注意GAN和骨盆数据集的规则扩散模型进行MRI-CT翻译。表4列出了T2→CT、T1→CT、加速T2→CT和加速T1→CT合成任务的性能指标。SynDiff在所有任务中的表现最高(p<0.05)。平均而言,SynDiff模型优于非注意gan模型2.1dB的PSNR和7.6%的SSIM,优于注意gan模型3.3dB的PSNR和14.4%的SSIM,优于扩散模型2.8dB的PSNR和6.1%的SSIM (p<0.05)。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第9张图片

代表性图像如图5所示。非注意力GAN和AttGAN显示局部对比度损失和伪像,SAGAN遭受对比度泄漏,规则扩散模型产生过度平滑,可能导致精细特征的损失。虽然UNIT在组织边界附近的一些片段上提供了更高的合成性能,特别是在外围体-背景边界附近,但SynDiff在整个图像上通常具有更高的性能。总的来说,SynDiff合成的目标图像具有很高的解剖保真度。注意,图5b中的参考CT图像具有金属诱导的条纹伪影,这在合成CT图像中通常是不存在的。植入金属导致MRI信号强度降低,而它们在CT上引起条纹伪影,偏离正常组织外观。由于骨盆数据集中的训练和验证对象没有携带任何植入物,训练后的模型学会了将T1加权MR图像中的暗区与引发低信号的常规组织(如外骨层[51])联系起来。反过来,训练模型合成具有规则组织外观的CT图像,而不是金属附近的伪影。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第10张图片

C. 模型复杂度

医学图像翻译的一个实际问题是应用模型的计算复杂性。表V列出了竞争方法的训练时间、推理时间和内存使用情况。正如预期的那样,与扩散模型相比,单次GAN模型具有显著的快速训练和推理。虽然SynDiff的训练时间与其他扩散模型相当,但其快速的扩散过程比DDPM和UNIT-DDPM提高了两个数量级以上的推理效率。在内存利用率方面,SynDiff的需求高于cGAN、attention GAN和UNIT,与MUNIT的需求相当,但明显低于DDPM和UNIT-DDPM。总的来说,SynDiff在图像保真度和计算复杂性之间提供了比常规扩散模型更有利的折衷。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第11张图片

D. 图像变异

涉及随机噪声变量的图像平移模型产生随机输出,这可以引起对给定源图像独立合成的目标图像的变异性。为了评估图像的可变性,我们研究了不同随机方法(SynDiff、MUNIT、DDPM和UNIT-DDPM)的目标图像样本。对于每个任务,从测试集中随机选择50个截面。对于每个截面,在给定各自源图像的情况下,独立合成10个目标图像样本。在10个样本中计算性能指标的平均值和标准差(std.)。在平均横截面上,除了UNIT-DDPM的std小于0.27dB的PSNR和0.31%的SSIM,所有方法的样本间std小于0.02dB的PSNR和0.07%的SSIM。因此,所有的随机方法相对于平均值具有最小的std值,这表明合成目标图像的可变性有限。

E. 抗噪可靠性

翻译方法的一个重要问题是它们对训练集和测试集之间噪声水平分布变化的可靠性。为了研究这个问题,在多模态T2→CT任务的测试集中,在源图像上添加了不同程度的噪声。将零均值二元高斯白噪声添加到每个横截面上,标准值范围为相对于平均像素强度[49]的[0.03 0.21]。图6绘制了在没有添加噪声的图像上训练的模型在添加了噪声的图像上测试时的性能。当然,随着噪声水平的增加,所有方法都表现出性能损失。与原始图像的性能相比,在最高噪声水平(0.21 std)下,非注意GAN的性能损失为3.4dB PSNR,7.6% SSIM;注意GAN的性能损失为0.9dB PSNR,3.9% SSIM;规则扩散模型的性能损失为1.9dB PSNR,3.6% SSIM。相比之下,SynDiff的性能差异相对较小,PSNR为1.0dB, SSIM为0.7%。这些结果表明,SynDiff对噪声保持一定程度的可靠性。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第12张图片

F. 消融研究

我们进行了一组消融研究,以系统地评估SynDiff中主要元素的重要性。为了证明对抗性扩散过程的重要性,我们比较了SynDiff中基于对抗性投影器的扩散模块与基于L1-损失投影器的变体扩散模块。变体模块共享相同的整体损失函数,尽管它消除了扩散生成器和判别器的对抗损失项。因此,扩散模块的残差损失项基于类似于常规扩散模型的逐像素的L1-损失。为了集中评估扩散模块,在无条件综合任务中进行了展示,其中从所有模型中删除了来自非扩散模块的指导。代表性任务的合成图像如图7所示,FID分数列于表6。与ℓ1 T/k=4的对抗性投影相比于ℓ1 T/k=4的投影,同时与ℓ1 T/k=1000的投影。这些结果证明了对抗投影在反向扩散过程中有效和准确的图像采样的效用。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第13张图片

然后,我们实验了对抗性、循环一致性和扩散学习在SynDiff中的贡献。通过消隐对抗性损失,建立了第一变量模型;采用消融循环一致性损失法建立了第二变量模型;通过消去扩散模块,直接利用非扩散模块合成目标图像,构建了第三种变体模型。如表7所示,SynDiff的性能明显高于所有变体,这表明每种学习策略的重要性。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第14张图片

我们还将SynDiff的测试性能评估为扩散步骤数(T /k)的函数,以及控制单独损失项(λ, λ, λ, λ)之间平衡的权重函数。在每种情况下,模型都是在基于验证性能选择的参数的中心范围内进行训练的。如表8所示,基于不同参数值的变量之间的图像质量通常存在微小差异。在整个任务中,我们发现所选T/k值和剩余T/k值之间的平均PSNR小于0.2dB,SSIM差为0.2%,所选损失项权重和剩余损失项权重之间的PSNR小于0.3dB,SSIM差为0.4%。总的来说,这些结果表明SynDiff对参数变化表现出一定程度的可靠性。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第15张图片

接下来,我们对SynDiff是否会从非扩散模块的预训练中受益提出疑问,以提高稳定性。为了解决这个问题,将SynDiff与预训练非扩散模块50次以优化其翻译性能的变体模型进行比较,然后将预训练的非扩散模块与随机初始化的扩散模块结合起来。当非扩散模块被冻结时,预训练的冷冻变体训练组合模型。在更新扩散模块和非扩散模块的同时,预先训练的变体训练了组合模型。如表9所示,SynDiff和变体之间存在边际性能变化,跨任务的平均差异小于0.3dB PSNR和0.3% SSIM。这一结果表明,两个模块可以联合训练,没有明显的稳定性问题。与SynDiff相比,预训练适度降低了变体模型在较容易的PD→T1任务中的表现,但在相对较困难的T1→T2和T2→CT任务中,预训练总体上提高了变体模型的表现。为了评估这种模式的潜在原因,我们比较了SynDiff中非扩散模块与预训练的变体的翻译性能。在PD→T1中,预训练的平均PSNR降低了1.5dB, SSIM降低了2.6%,而在其余任务中,预训练的PSNR平均提高了1.3dB, SSIM降低了0.7%。这一发现表明,预训练非扩散模块可能会导致在较容易的翻译任务中过度拟合,而它可以帮助提高在相对困难的任务中的表现。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第16张图片

最后,我们评估了扩散模块对非扩散模块提供的源图像估计质量的依赖性。为此,我们训练了不同的模型,其中非扩散模块被故意训练不足,以产生次优的源图像估计。因此,非扩散模块的训练在一定的epoch (nND)后通过冻结其权值来提前停止,而扩散模块的训练则继续进行完整的50 epoch。表X列出了不同模型在不同nN D值范围内的性能。与nND=50时的SynDiff相比,我们发现nND=25时的性能差异相对较小,为0.7dB PSNR, 1.1% SSIM,而nND=10时的性能差异更显著,为2.0dB PSNR, 3.6% SSIM。这些结果表明,虽然扩散模块的训练对次优源图像估计显示出一定程度的可靠性,但功能良好的非扩散模块是扩散模块在无监督医学图像翻译中性能的关键。

Unsupervised Medical Image Translation with Adversarial Diffusion Models_第17张图片

VI. DISCUSSION

A. 扩散与GAN模型

据报道,在无约束的图像生成任务中,规则扩散模型比GAN模型更有优势,尽管GAN模型具有高图像质量,但其训练稳定性和样本多样性有限,[74]。虽然SynDiff明显优于所有竞争方法,但在这里我们观察到常规扩散模型(如DDPM)在解剖学约束的医学图像翻译中与GAN模型相比竞争力较弱,特别是在多对比MRI任务中。请注意,用于图像生成的无条件模型通常是在具有高度异构样本的大型数据集上训练的。相比之下,这里考虑的条件翻译模型是在相对有限的规模和异质性的数据集上训练的[21],[24]。此外,医学图像比自然图像具有更高的固有噪声。这可能会限制使用逐像素损失训练的规则扩散模型的空间敏锐度,这些模型对细粒度特征(如噪声[21])的灵敏度低于对抗性损失,[75]。鉴于这些差异,扩散模型在稳定性和样本多样性方面的优势在医学图像翻译中可能不太明显。进一步的工作需要系统地探索扩散模型对抗GAN的相对性能作为医学成像数据集的大小、异质性和噪声水平的函数。

用于医学图像翻译的扩散模型和GAN模型之间的另一个区别涉及从给定源图像合成的独立目标图像的可变性。这两种模型都是从给定源模态的目标条件分布中提取样本,但目标图像可以是确定性的,也可以是随机的,这取决于随机变量的使用。在对比方法中,除了MUNIT在中间阶段接收随机噪声变量外,所有GAN模型都只接收源图像以产生确定性图像。同时,所有扩散模型都是从随机噪声图像开始对目标图像进行采样,从而产生随机图像。在这里,我们观察到包括SynDiff在内的所有扩散模型在从同一源图像合成的独立目标样本中显示有限的可变性,这可能是因为随机噪声图像的影响在扩散步骤中减弱了。尽管如此,未来的研究有必要深入评估平移估计的可变性及其在表征扩散模型不确定性方面的效用。

B. 局限性

SynDiff是一种基于扩散的方法,它在扩散模块中采用对抗损失来加速图像采样,在非扩散模块中采用对抗损失来实现无监督训练。理论上,这些损失可能会引入训练不稳定性的脆弱性,通常表现为模型性能的振荡模式和次优收敛[61]。为了排除这个潜在的问题,我们检查了SynDiff跨训练循环的验证性能。我们没有发现任何显著的不稳定性迹象,因为模型跨时代的性能平稳地向一个收敛点发展,没有突然的跳跃(未报告)。我们还观察到非扩散模块的预训练并没有产生显著的收益,这表明扩散模块和非扩散模块的联合训练可以稳定地进行。如果在训练SynDiff过程中怀疑存在不稳定性,可以通过谱归一化或特征匹配来实现对抗性成分的稳定[61]。

SynDiff中的非扩散模块计算与训练集中目标图像配对的源图像估计,并基于这些估计对扩散模块进行训练。为了评估扩散模块对非扩散模块的依赖,我们系统地对非扩散模块进行了欠训练,以产生次优的源图像估计。请注意,尽管扩散模块是用低质量的源图像估计进行训练的,但在推理过程中仍然使用获取的源图像进行测试。这造成了源图像输入到训练集和测试集之间扩散模块的分布之间的差异。虽然扩散模块在适度差异下表现出一定程度的可靠性,但在训练不足的显著差异下,其性能会下降。因此,功能良好的非扩散模块是训练扩散模块的关键。

在这里,高质量的图像是在MRI对比(如T1、T2)和MRI到CT之间转换时合成的。然而,我们观察到所有检测方法在CT到MRI转换方面的表现都很差(未报道)。需要注意的是,CT主要根据x射线衰减对致密的外层骨层产生强烈的对比,而MRI根据组织磁化显示软组织和骨骼之间的强烈对比。因此,合成MRI图像所需的软组织主要信息在CT图像中几乎不存在,导致CT到MRI的一对多映射,影响了模型的性能。特别是,SynDiff基于源到目标映射是一个单射函数的理论假设来表达去噪分布,因此在ct到mri的转换过程中,计算的反向转移概率的准确性会受到影响。对于这种病态任务,可以通过在目标模态[23],[27]上使用传统的或基于学习的正则化先验来提高图像质量[23], [27],[76]。

C. 未来工作

可以进行若干技术发展以改进SynDiff。在这里,我们考虑了源和目标模态在受试者中不配对的合成任务。当有匹配的源-目标图像时,SynDiff可以用于监督训练,方法是用像素代替循环一致性损失,并提供实际源图像作为条件输入[21],[77]。通过扩大训练数据集的大小,基于未充分采样的源和目标模态采集[66],或者结合成对和未成对的源-目标模态数据[34],也可以提高性能。

架构开发也可能有助于提高翻译性能。SynDiff中的扩散生成器和非扩散生成器是基于卷积主干实现的。最近的研究报道,与卷积架构相比,基于Transformer的架构可以提高医学成像任务中的上下文敏感性[78]。语境表征在实施反向扩散步骤中的重要性仍有待证明,但Transformer中的注意机制可能有助于增强对非典型解剖的泛化性能[79]。

最后,可以考虑在计算效率方面的发展,以进一步提高实用性。与具有缓慢推理的常规扩散模型不同,SynDiff提供了与GAN模型更具竞争力的推理时间。因此,通过将SynDiff中的对抗式投影与其他加速方法相结合,例如用中间图像启动采样[80]或在紧凑的潜在空间[50]中运行扩散过程,可能会获得进一步的速度优势。SynDiff的训练时间明显高于GAN,并且由于增加了对抗组件和损失的计算,比常规扩散模型的训练时间略长。在需要时,可以通过在多个GPU上并行执行来提高训练效率。

D. 潜在应用

SynDiff的主要应用是在多对比MRI和多模态成像中缺失扫描的植入。在临床方案中,由于时间限制或由于不合作患者的运动伪影,通常会忽略一部分扫描。为了保持原始协议,可以从获得的扫描中推算出遗漏的扫描。虽然在原生MRI对比图之间的映射和MRI到CT的映射已经证明了成功的结果,但在其他情况下,合成目标图像所需的信息可能没有充分编码到源图像中。例如,外源剂增强的MRI对比图所携带的信息与原生对比图不同,因此从原生MRI对比图[25]合成增强MRI图像相对困难。在这种情况下,可以通过结合多种源模式来提高翻译性能,这些模式可以捕获更多不同的组织信息[26],[28],[29]。

SynDiff的另一个潜在应用是对基于学习的模型的无监督适应,用于下游任务,如跨不同领域的分割和分类(例如,扫描仪、成像站点、模态)。当标记数据的数量在主领域是有限的,在具有大量标记数据集的辅助领域中得到充分训练的模型可能会被转移[81],[82]。然而,由于数据跨域分布的固有变化,盲目的模型转移将导致大量的性能损失。假设主域有足够大的未标记图像集,则可以使用SynDiff在主域和副域之间进行翻译[83]。将翻译后的图像作为输入可以提高迁移模型的性能,因为它们的分布与二级域图像更接近。也就是说,与扫描插入的情况类似,域适应的成功与否取决于域之间共享信息的程度。当次要域的信息在主域中没有充分编码时,下游模型在翻译后的图像上可能表现出次优的性能。

VII. CONCLUSION

在这项研究中,我们引入了一种新的对抗扩散模型,用于医学图像在源和目标模式之间的转换。SynDiff利用快速扩散过程有效地合成目标图像,并使用条件对抗投影进行准确的储备扩散采样。无监督学习是通过循环一致的架构实现的,该架构体现了两种模式之间的耦合扩散过程。与最先进的GAN和扩散模型相比SynDiff实现了卓越的质量,并且在高保真医学图像翻译方面具有很大的前景。SynDiff中的快速条件扩散过程也可能在其他应用中提供优于GAN的性能优势,例如去噪和超分辨率[49],[84],[85]。

你可能感兴趣的:(扩散模型,医学图像重建,1024程序员节,深度学习,人工智能,计算机视觉)