代码链接：https://github.com/taozh2017/HiNet

这篇文章是做什么的：多模态MR图像合成

输入：多张图像

是否需要数据配准：需要

是基于2D还是3D: 2D axial-plane slices of the volumes 二维轴平面切片

---文章的motivation---

医学图像合成方法的很大一部分工作是用单模态数据[13]、[15]–[19]。然而，由于医疗应用中经常使用多种模态，并且基于“更多模态提供更多信息”的原则，一些研究已经开始研究多模态数据合成。本文提出了一种用于多模态MR图像合成的混合融合网络（Hi-Net），该网络学习从源图像（即现有模态）到目标图像（即缺失模态）的映射。在网络中，一个特定于模态的网络用于学习每个单独模态的表示，而一个融合网络用于学习多模态数据的公共潜在表示。然后，设计一个多模态合成网络，将每个模态的潜在表示与层次特征紧密结合，作为合成目标图像的生成器。此外，为了有效利用多模态之间的相关性，提出了一种分层多模态融合策略(layer-wise multi-modal fusion strategy)，其中提出了一种混合融合块（Mixed Fusion Block MFB）来自适应加权不同的融合策略（即元素级求和、乘积和最大化 element-wise summation, product, and maximization）。

---方法发展过程---

Chartsias等人提出了一种多输入多输出的MRI合成方法。Olut等人[20]提出了一种合成模型，用于使用可用的T1和T2图像生成MR血管造影序列(angiography sequences)。Yang等人[21]提出了一种基于序列GAN模型和半监督学习的双模bi-modal医学图像合成方法。然而，仍然普遍缺乏使用多模态数据作为输入来合成医学图像的方法。为了实现多模态合成，一个关键的挑战是有效地融合各种输入。

一种融合策略是学习共享表示(shared representation)[22]–[24]。例如，Ngiam等人[25]使用双模bi-modal深度自动编码器融合听觉和视觉(auditory and visual)数据，采用共享表示学习，然后重建两种类型的输入。事实证明，共享表示学习对于利用多模态数据之间的相关性特别有效。然而，虽然利用这些相关性很重要，但保留特定于模态的属性对于多模态学习任务也很重要，因此自动平衡这两个方面是一个挑战。

为此，提出了一种新的用于多模态MR图像合成的混合融合网络（Hi-Net），该网络通过融合现有图像来合成目标（或缺失）模态图像。具体地说，模型首先学习特定于模态的网络，以从每个单独的模态捕获信息。该网络作为自动编码器形成，以有效地学习高级特征表示。然后，提出了一个融合网络来利用多个模态之间的相关性。此外，我们还提出了一种分层多模态融合策略，可以有效地利用不同特征层之间的相关性。此外，提出了一种MFB自适应加权不同的融合策略（即元素求和、乘积和最大化）。最后，我们的Hi-Net将特定于模态的网络和融合网络结合起来，学习各种模态的潜在表示，并在其中生成目标图像。通过与现有的各种先进方法进行比较，验证了所提出的合成方法的有效性。

本文的主要贡献如下。

•与大多数现有的单模态合成方法不同，本文提出了一种新的医学图像合成框架，该框架使用多种模态合成目标模态图像。

•我们的模型通过特定于模态的网络捕获单个模态特征，并使用分层多模态融合策略利用多模态之间的相关性，有效集成多模态多层次表示。

•提出了一种新颖的MFB模块，对不同的融合策略进行自适应加权，有效地提高了融合性能。

---方法---

A. Modality-specific Network

为了学习有意义和有效的高级表示high-level representation，我们采用了一种类似于自动编码器的结构来使用所学习的高级表示重构原始图像。

重建损失提供侧(side-output supervision)，以确保特定于模态的网络学习每个单独模态的判别式表示。

B. Multi-modal Fusion Network

大多数现有的多模态学习方法采用两种多模态特征融合策略中的一种，即早期融合或晚期融合。早期融合直接将所有原始数据叠加，然后送入单个深度网络，而晚期融合首先从每个模态中提取高级特征，然后使用连接层将其组合。为了有效地利用不同层次（如浅层和高层）的多层次表示之间的相关性并减少不同模态之间的差异，我们提出了一种分层融合网络layer- wise fusion network。此外，还提出了一种MFB模块，用于自适应加权来自各种模态的不同输入。

如图所示，来自每个模态特定网络的第一池层的特征表示被馈送到MFB块中，然后该前MFB模块的输出被输入到具有模态特定网络的第二池层的特征表示的下一MFB模块中。因此，我们在融合网络中有三个MFB模块，值得注意的是，分层融合独立于特定于模态的网络，因此它不会干扰特定于模态的结构，只学习模态之间的潜在相关性。此外，所提出的分层融合是在不同的层中进行的，因此我们的模型可以利用多个模态之间的相关性使用低层和高层特征。

图2提供MFB模块的图示，其中自适应权重网络被设计用于融合来自多个模态的特征表示。在多模态融合任务中，流行的策略包括元素求和、元素乘积和元素最大化。

然而，对于不同的任务，哪一个是最好的还不清楚。因此，为了从每种策略的优势中获益，我们同时使用所有三种融合策略，然后将它们连接起来。然后，添加卷积层以自适应地对三个融合进行加权。

C. Multi-modal Synthesis Network

一旦获得了多模态潜在表示Fn（即，多模态融合网络中最后一个MFB模块的输出），我们就可以使用它通过GAN模型合成目标模态图像。

由于我们将多模态学习和图像合成集成到一个统一的框架中，因此生成器可以重新表示为：

鉴别器D的目标函数可以表示为：

最后，可根据以下目标制定端到端多模态合成框架：

生成器的详细结构如图1所示。具体地说，首先将潜在表示输入两个卷积层，分别使用256和128个大小为3×3的滤波器，然后将输出进一步输入三个MFB模块。请注意，还使用MFB模块使用skip connection来融合来自每个模态特定网络的编码层的特征表示和潜在表示。然后将最后一个MFB模块的输出馈入一个上采样层和两个卷积层（滤波器大小为3×3，滤波器数量分别为32和1）。在每个卷积层之后，还使用ReLu激活函数执行批标准化。

---实验结果---

A. Dataset

为了验证我们模型的有效性，我们使用了多模式脑肿瘤分割挑战2018（BraTs2018）数据集[47]。该数据集由来自19个不同机构的285名患者MR扫描组成，其中包括胶质母细胞瘤（glioblastomaGBM）和低级别胶质瘤（lower grade gliomaLGG）队列。患者扫描包含四种co-registered MR volumes：T1、T1c、T2和Flair，其中每种模态的体积大小为240×240×155。在本研究中，我们使用T1、T2和Flair图像来验证我们提出的合成方法的有效性。我们的架构使用体积的二维轴平面切片(2D axial-plane slices of the volumes)。对于二维切片（240×240），我们从中心区域裁剪出160×180大小的图像。此外，我们将285名受试者随机分为80%进行训练，20%进行测试。为了增加训练样本的数量，我们将每个裁剪图像（160×180）分割成四个大小为128×128的重叠块(overlapping patches)，并对重叠区域进行平均以形成最终估计。对于每个体积，我们将原始强度值线性缩放为[−1, 1].

B. Comparison Methods and Evaluation Metrics

1）Pix2pix[27]。该方法通过保持像素级的强度相似性来合成整个图像；

2）cycleGAN[29]。此方法使用循环一致性损失，而无需成对数据。在我们的比较中，我们使用配对数据来合成从一种模态到另一种模态的医学图像；

3）MM-Syns[48]。该方法利用后期融合学习多模态数据的通用表示，然后在像素级强度差的约束下逐层合成MR图像。

Metrics:

PSNR NMSE SSIM

D. Results Comparison

We evaluate the proposed model for three tasks, i.e., on on BraTs2018 dataset, using T1 and T2 to synthesize the Flair modality (T1 + T2 → Flair), using T1 and Flair to synthesize the T2 modality (T1 + Flair → T2), and using T2 and Flair to synthesize the T1 modality (T2 + Flair → T1)

为了进一步验证我们的模型在矢状面和冠状面上的有效性，我们在图6中显示了使用不同平面的结果。

还评估了在缺血性卒中病变分割挑战2015（the ischemic stroke lesion segmentation challenge 2015 ISLES2015）数据集上使用T1和Flair图像合成T2模态图像的性能[49]。该数据集由多光谱MR图像组成。我们选择亚急性缺血性卒中病变分割（the sub-acute ischemic stroke lesion segmentation SISS）患者队列。每个病例由四个序列组成，即T1、T2、DW I和Flair，并严格地与Flair序列共同配准(co-registered)。有关预处理步骤的更多详细信息，请参见[49]。对于一个2D切片（230×230），我们从中心区域裁剪出一个160×180大小的图像，并且我们还将每个裁剪的图像（160×180）分割成四个128×128大小的重叠面片。此外，我们在本研究中使用了28个训练案例和17个测试案例。对于每个体积，我们还将原始强度值线性缩放为[−1, 1].

E. Ablation Study

前边融合后边融合后边融合没有利用两个模态之间的关系吗？具体看文中给定的文章。

---讨论---

网络由两个模态特定网络和一个融合网络组成，其中模态特定网络旨在保留模态特定属性，而融合网络旨在利用多个模态之间的相关性。在多视角学习领域，一些研究侧重于学习共同的潜在表征，以利用多视角之间的相关性[50]，[51]，而其他方法则探索互补信息。然而，这两项对于多视角/模式学习都很重要[52]–[54]。对于所提出的模型，我们考虑了这两个方面来提高融合性能。【如何考虑的？学习共同的潜在特征（看看文章50）学习互补信息（可以理解为学习特定于模态的信息）】

通常很难收集足够的训练数据，尤其是对于尚未在临床实践中建立良好的新成像模式。此外，高等级不平衡或变异性不足high-class imbalance or insufficient variability的数据[55]通常会导致分类性能差。因此，我们的模型可以合成更多的多模态图像，这些图像可以作为补充训练数据来提高当前深度学习模型的泛化能力。

---结论---

在本文中提出了一种新的用于多模态MR图像合成的端到端混合融合网络。具体地说，该方法探索了每个模态中特定于模态的属性，同时利用了多个模态之间的相关性。此外，我们还提出了一种分层融合策略，可以有效地融合多种模态的不同特征层。此外，还提出了一个MFB模块来自适应加权不同的融合策略。在多个合成任务中的实验结果表明，我们提出的模型在定量和定性方面都优于其他最先进的合成方法。在未来将验证合成图像作为一种数据增广形式是否能够提高多模态学习性能。

2021-08-18-Hi-Net Hybrid-fusion Network for Multi-modal MR Image Synthesis (TMI 2020)-有代码