2021-08-26-Accelerated Multi-Modal MR Imaging with Transformers-有代码

代码链接：https://github.com/chunmeifeng/MTrans

【题目中加速的Accelerated，如何理解？】

因为它提供了比CT更好的软组织对比度，同时避免了辐射照射。然而，由于磁共振成像过程的物理性质，扫描时间可能长达数十分钟，这严重影响了患者的体验，并导致高成本。因此，加速磁共振成像已经成为一个热门的研究课题，其中从欠采样的k空间测量重建图像是一种标准策略。然而，由于采样不足而产生的混叠伪影(aliasing artifacts)往往会影响临床诊断。因此，从欠采样k空间测量中恢复高质量图像是加速MR成像的最终目标。目前，这方面的主流方法包括MR图像重建和超分辨率（SR）。前者旨在消除欠采样[1]-[4]造成的混叠伪影，而后者则提高了图像分辨率[5]-[7]。根据不同的采集参数，扫描仪提供不同模态的MR图像。对于同一对象，这些模态通常具有模态间一致性信息和模态特定信息[8]

T1和T2加权图像（T1WI和T2WI）以及质子密度(proton density)和脂肪抑制质子密度(fat-suppressed proton density)加权图像（PDWI和FS PDWI）是具有互补结构的两对图像。

（a）提供形态学和结构信息，（b）显示水肿和炎症

(a) provides morphological and structural information, and (b) shows edema and inflammation

fastMRI (currently the largest available database for raw MR images)

PDWI提供关节软骨(articular cartilage)的结构信息，而FS PDWI可以抑制脂肪信号，突出软骨韧带(ligaments)和其他组织之间的结构对比[10]。

T1WI比T2WI更容易获得，因为它们需要更短的重复时间（repetition time TR）和回波时间 (echo time TE)。PDWI需要比FS PDWI更短的扫描时间。所以,我们可以使用相对容易获得的模态作为补充信息，引导和加速以较慢成像速度获取的目标模态。

Salman et al. added an auxiliary modality as prior information into the generator of a generative adversarial network (GAN) [15]. Lyu et al. concatenated the two modalities at the feature level of smaller size [16].然而，这些方法中的大多数只是对magnitude图像进行降采样，以模拟欠采样或低分辨率（LR）MR图像扫描的采集，这意味着它们对快速多模态MR图像的有效性有待验证[14]，[15]。此外，在不同的强度分布下，不同的MR图像模式具有特定于模态的表现。因此如何有效地融合这两种模态是多模态磁共振成像中一个需要解决的固有问题。另一方面，由于卷积运算的固有局部性，卷积神经网络（CNNs）难以完全捕获全局知识，而transformers可以通过建模long-range dependency来学习全局信息。得益于此，transformers最近在各种计算机视觉任务上取得了最先进的性能[17]。the Vision Transformer (ViT) divides images into small patches and uses a transformer to model the correlation between them as sequences, achieving satisfactory results in image classification [18]. The Detec- tion Transformer (DETR) formulates target detection as an ensemble prediction task with the help of a transformer [19]. Transformers have also been used in medical imaging tasks. For example, transformers incorporated into UNet have been employed for medical image segmentation [20], [21].

the potential benefits of transformers for multi-modal MR imaging remain to be verified

我们提出了一种基于多模态变压器的多模态transformers （MTrans），用于融合来自不同模态的MR成像扫描的信息特征。

我们的方法利用由两个分支transformers 生成的多尺度patch来表示不同的模态，并将它们融合以相互补充。我们工作的另一个关键贡献是为多模MR成像transformers 开发一种特征融合策略，据我们所知，该策略尚未被研究。这是通过我们有效的多模态交叉cross attention modules实现的，每个模块都将来自另一个分支的特征作为键和值进行有效查询，并从另一个模态获取有用信息。两个分支的多尺度patch可以捕获清晰的结构信息以及细微的像素级信息。

contributions

1.我们提出了一种新的transformers 结构，称为MTrans，以加速多模态MR成像。我们的工作是首次尝试使用transformers 来完成这项任务，与现有的基于CNN的方法相比，它能够获取丰富的全局知识。

2.我们还引入了交叉注意模块，以有效地提取每个分支中的有用信息，然后结合多个尺度的特征，提供不同的结构信息和细微的像素级信息。

3.我们在两个快速MR成像任务（例如图像重建和SR）上，在fastMRI和rawMR图像数据集上评估我们的方法。结果表明，该方法在定性和定量评价方面均优于其他多模态磁共振成像模型。

【如何使用transformer实现多尺度？】

RELATED WORK

A. Deep Learning for Accelerated MR Imaging

图像重建和SR技术可以在不改变MR图像采集硬件的情况下提高图像质量，因此被广泛用于加速MR成像。

Jin et al. applied UNet to capture spatial information for inverse problems related to MR imaging [32]. A 3D CNN with a residual architecture was used to generate high-quality MR image scans of knees in [6]. Chen et al. recovered high-quality image details from a densely connected SR network [33]. Zhu et al. effectively estimated the mappings by manifold ap- proximation (AUTOMAP) for MR image reconstruction [34]. Dongwook et al. [35] trained the magnitude and phase of MR image data separately and fused them to generate the output image. 为了解决CNN在计算复数MR图像数(calculating complex MR image numbers)方面的缺点，我们最近提出了Dual-OctConv，用于处理不同空间频率下的复数分量，以加速并行MR成像[36]，[37]。该方法不仅考虑了实部和虚部之间的计算关系(the real and imaginary parts)，而且捕捉了不同空间频率的特征。最后，受GANs在自然图像合成中突出使用的启发，许多作品使用了具有对抗性和视觉损失的GANs来生成高质量的MR图像[38]–[41]。数据一致性层在MR成像中起着重要作用，以保持重建图像在k空间中与原始图像一致[42]，[43]。此外，混合域学习方案已用于从k空间和图像域恢复数据[44]。然而，这些方法都是基于单一模态的CNN架构。相比之下，我们的方法是基于transformer结构的多模态融合方法。

B. Multi-Modal Medical Image Representation

通过利用数据之间的互补性，多模态融合允许在新的空间中组合多个模态，这比使用任何单个模态作为输入更加稳健。最近，多模技术也被广泛应用于医学成像[8]、[14]–[16]、[45]。例如，为多模态MR图像合成设计了一个混合融合网络[46]。对于加速MR成像，Xiang和Dar等人简单地将两种模式连接起来作为输入，以指导目标模式的重建和SR[8]，[15]。Sun等人将不同的模式一起发送到网络中，以同时恢复它们[14]。对于MR图像SR任务，Lyu等人将两种模式连接在较小尺寸的特征上[16]，而Zheng等人将它们连接在原始图像尺寸上[45]。然而，这些现有的多模态方法只是简单地添加辅助模态作为目标模态的先验信息，以提高图像质量；融合这两种模式还没有被探索过[8]、[14]–[16]。此外，大多数以前的方法只是对幅值图像进行降采样，以模拟欠采样或LR MR图像扫描的采集。然而，磁共振成像加速应该使用真实的k空间数据。因此，快速多模式磁共振成像的有效性还有待验证。

III. OVERVIEW OF ACCELERATED MR IMAGING

设y表示从MR图像扫描仪获取的复值全采样k空间(complex-valued, fully sampled k-space)。我们可以通过x=F−1（y）得到相应的全采样图像，其中F−1是一种二维快速傅立叶逆变换（FFT）。在临床实践中，由于只有magnitude图像可见，医院通常保留这些图像用于医疗诊断。然而，在这项工作中，所有数据（例如，用于重建的零填充图像和用于SR的LR图像）都是从真实MR图像k空间数据获得的，以探索加速MR成像的有效性。这是当前快速多模态磁共振成像方法所忽略的一个重要问题。在这项工作中，我们考虑两种加速MR成像技术，包括（i）从被混叠伪影（欠采样图像）损坏的图像重建图像，以及（ii）从退化图像恢复SR图像。

A. Accelerating MR Imaging by Reconstruction

我们使用具有6倍加速度的随机掩模来选择k-空间点的子集

B. Accelerating MR Imaging by Super-Resolution

以前的MR图像SR方法的训练阶段通常将高斯模糊添加到下采样振幅amplitude图像，以获得LR图像[47]。然而，简单地减小图像域中的图像大小与实际的MR图像采集过程相矛盾。在[5]之后，我们首先将完全采样的k空间y的外部部分截断一个期望因子以降低分辨率(we first truncate the outer part of the fully sampled k-space y by a desired factor to degrade the resolution)，然后应用F以获得降低的LR图像〜x。这更好地模拟了真实的图像采集过程，避免了棋盘效应checkerboard artifacts。

IV. PROPOSED MTRANS ARCHITECTURE

将图像块处理成一系列线性嵌入序列(linearly embedded sequences)，以创建双分支结构。1. 使用两个heads从多模态输入图像（例如，具有目标零填充的大尺寸全采样辅助模态图像或小尺寸LR图像）中提取不同尺度的模态特定特征；2.建立了一个多模态transformer，用于聚合不同的模态，其中模块使用当前分支的特征作为查询，与其他分支交换信息；3.两个tails用于将特征映射到恢复的图像中。来自不同模态的输入被划分为不同大小的图像块。这使得能够提取结构特征，同时还捕获细微的像素级信息以补充目标模态。multi-modal transformer的主要目标是集成不同尺度的多模态图像。

A. Heads

B. Multi-modal Transformer

图3中的绿色箭头对应于当前分支模态的信息更新，红色箭头有助于两个模态之间的信息交换。我们可以将我们的multi-modal transformer表述为：

1) Cross Transformer Encoder

我们的cross transformer旨在有效地融合这两种模式。

2) Cross Attention Module

Our cross attention module is an improved multi-head attention module which absorbs features from the auxiliary modality that contribute to the target modality.具体来说，为了更有效地融合不同的模式，当前分支中的特征充当一个查询，通过注意与其他分支中的特征交互。请注意，查询features已在尺寸上与另一分支的features对齐。换句话说，这两个分支中的特征大小是不同的。这使得我们的交叉注意力融合模块能够学习清晰的结构信息和细微的像素级特征。

V. EXPERIMENTS

A. Datasets and Baselines

1） Datasets:：我们使用两个原始MR图像数据集来评估我们的方法：（1）fastMRI[50]是最大的open-access原始MR图像数据集，正式提供于https://fastMRI.med.nyu.edu/。在[9]之后，我们筛选出227对和24对PDWI和FS-PDWI膝关节体积，用于训练和验证。PDWI用于指导FS-PDWI模式的恢复(2）使用3T系统收集uiMRI（由联合成像医疗uMR 790提供；所有受试者均获得知情书面同意，所有实验均按照批准的指南进行，采用两种不同的方案（全脑T1WI和T2WI k-space取样）对400名受试者进行研究。切片厚度为4mm，矩阵大小为320×320×19。uiMRI数据集以7:1:2的比例按subject-wise分割，用于训练/验证/测试集，其中T1WI为辅助模态，T2WI为目标模态。在我们的实验之前，所有实验数据集都是通过仿射配准对齐的。

2) Performance Evaluation: For quantitative study, peak signal-to-noise ratio (PSNR), structural similarity index (SSIM) and normalized mean square error (NMSE) are used to evaluate the performance of our method [50]. We compare our model with the following single- and multi-modal algorithms. Single-modal MR image reconstruction/SR methods: we eval- uate the most popular SR method (EDSR) [51]; the most popular MR image reconstruction method, UNet, provided by fastMRI [50]); and a standard transformer framework for MR image reconstruction/SR (TransMRI). Multi-modal recon- struction/SR methods: we investigate a DenseUNet model for multi-modal MR image reconstruction called MDUNet [8]); a conditional GAN framework for multi-modal MR image reconstruction named rsGAN [15]; a non-progressive multi- modal MR image SR network called PRO [16]; and a deep CNN model for multi-modal MR image SR named MCSR [45]. All compared methods are retrained using their default settings. The various forms of our multi-modal fusion strategies will be discussed in the ablation studies. For the reconstruction task, we use the an equispaced undersampling pattern with 8× acceleration for fastMRI, and a random pattern with 6× acceleration for uiMRI. For the SR task, we use 4× enlargement for both fastMRI and uiMRI to evaluate the effectiveness of our method.对于重建任务，我们对fastMRI使用等距欠采样模式（加速度为8倍），对uiMRI使用随机模式（加速度为6倍）。对于SR任务，我们对fastMRI和uiMRI使用4倍放大来评估我们方法的有效性。

B. Implementation Details

C. Results on MR Image Reconstruction

我们通过计算恢复图像和完全采样真实图像之间的SSIM、PSNR和NMSE来评估重建结果。The first row provides the single- modal MR image reconstruction methods, while the second row includes the CNN-based multi-modal methods and our multi-modal transformer model.

The more obvious the structure in the blue error map, the worse the restoration. 零填充重建会产生明显的锯齿伪影aliasing artifacts，并丢失解剖细节。our method yields the lowest reconstruction error, better preserving important anatomical details.

【伪影】

D. Results on MR image Super-Resolution

E. Ablation Studies

1) Comparison of Different Fusion Schemes:

The first is a multi-modal transformer with early fusion, named ETransMRI, where the different modalities are fused as input.

second：cross multi-modal transformer with same-scale fusion, named ITransMRI.

ETransMRI obtains the worst performance, which supports our conclusion that feature-level fusion can provide richer supplementary information than simple fusion.Since early fusion does not learn information at the feature level.由于ITransMRI的融合方法过于单调，无法在两种不同的模式之间提取不同的尺度信息，相比之下，我们的MTrans在多尺度上继承了不同模式的融合信息，增强了融合特征，并捕获了明显的结构信息和细微的像素级特征。

2) Effect of Trade-Off Between the Two Modalities

The greater the value of α, the greater the influence of the target modality, and the smaller the influence of the auxiliary modality.

可以看出，我们的模型在α=0.9时获得了最佳的PSNR和SSIM分数。当α=1时，PSNR性能迅速下降，而SSIM仅略有下降。这可能是因为辅助模态在多个尺度上与gt融合，因此辅助支路损失的权重不会受到太大影响。

VI. CONCLUSION

在这项工作中，我们致力于探索图像中丰富的全局知识，以实现多模态磁共振加速成像。为此，我们提出了一种通用的多模态MR加速成像转换框架MTrans，该框架可用于MR图像重建和SR，在辅助模态的指导下有效地恢复目标模态。通过融合不同模态的特征图，提出的MTrans有助于学习多模态MR图像的全局信息，获得更高质量的重建图像，并显著减少伪影。cross attention module探索不同尺度下的融合策略，既能获得清晰的结构信息，又能获得细微的像素级信息。