2021-08-23-Relation-Induced Multi-Modal Shared Representation Learning for Alzheimers Disease Dia...

2021-08-23-Relation-Induced Multi-Modal Shared Representation Learning for Alzheimers Disease Diagnosis(TMI 2021)-无代码

代码链接:无

这篇文章是做什么的:阿尔茨海默病检测

输入:多模态

是否需要数据配准:需要

是基于2D还是3D:  未提,看图是2D

---文章的Motivation---

多模态数据(如磁共振成像(MRI)和正电子发射断层成像(PET))的融合通过提供互补的结构和功能信息来准确识别阿尔茨海默病(Alzheimer’s disease AD)。然而,现有的大多数方法只是将原始空间中的多模态特征连接起来,而忽略了它们之间的潜在关联,这可能为AD识别提供更具辨别力的特征。同时,如何克服由高维多模态数据引起的过度拟合问题仍然具有挑战性。为此,我们提出了一种用于AD诊断的Relation-Induced Multi-Modal Shared Representation Learning。该方法将表示学习、降维和分类器建模集成到一个统一的框架中。具体而言,该框架首先通过学习原始空间和共享空间之间的双向映射来获得多模态共享表示。在此共享空间中,我们使用了几种关系正则化器(relational regularizers)(包括feature-feature, feature-label, and sample-sample regularizers)和辅助正则化器,鼓励学习多模态数据中固有的潜在关联,并缓解过度拟合。接下来,我们将共享表示投影到目标空间以进行AD诊断。为了验证我们提出的方法的有效性,我们在两个独立的数据集(即ADNI-1和ADNI-2)上进行了实验,实验结果表明我们提出的方法优于几种最先进的方法。

【了解MRI和PET图像的特性】

---方法发展过程---

阿尔茨海默病(AD)是老年人最常见的神经退行性疾病之一,其特点是神经元不可逆的缺失和遗传复杂的疾病。随着疾病的发展,它将导致不可逆转的脑萎缩(irreversible brain atrophy),并使患者需要24小时的护理,这将带来经济和心理负担。幸运的是,AD的早期诊断有助于患者护理,有助于减缓病情的恶化[2]。因此,准确识别AD及其前驱阶段,即轻度认知损害(mild cognitive impairment MCI),已引起广泛关注[3]。

神经成像技术(Neuroimaging)被认为是识别脑部疾病进展的有用工具[4]。特别是,已经证明,多模态神经图像(如磁共振成像(MRI)和正电子发射断层扫描(PET))可以提供异常大脑区域的补充结构信息(如脑萎缩)和功能信息(如代谢)[5]。因此有必要开发一个基于多模态神经图像的鲁棒和准确的模型,用于AD的早期诊断[6],[7]。

传统的基于多模态的机器学习方法通常将原始空间中的多模态特征串联起来进行AD识别[8],[9]。然而,多模态特征的直接concatenate不能充分利用多模态数据中存在的互补信息。为了提高预测性能,已经提出了几种方法[10]–[13],通过利用多模态数据的互补信息对AD诊断进行融合。

Hinrichs等人[10]提出了一种基于多核学习(multi-kernel learning MKL)的模型,通过同时学习核权重和maximum margin classifie来融合多模态特征。Zhou等人[11],[13]学习了一个保留多模态数据特定信息的潜在空间,然后将潜在空间中的特征投影到标签空间中进行预测。Zhu等人[12]利用典型相关分析(canonical correlation analysis CCA)将原始多模态数据映射到公共空间来结合多模态信息,并构建支持向量模型(support vector models)用于AD的联合回归和分类(joint regression and classification)。如何探索多模态数据中固有的潜在关联,并为AD诊断生成区分表示(distinguishing representations)仍然是一个挑战。

【正则化了解一下】

此外,多模态研究中的低样本特征比(low sample-to-feature ratio)带来了容易导致过度拟合的“dimension curse”问题[14]。为了解决这个问题,以前的方法采用特征选择或特征缩减(feature selection or feature reduction)方法,为模型构建选择informative features[15]–[18]。例如,Nie等人[15]在特征权重上应用L2,1范数来去除非信息特征。类似地,基于L2,1范数,Jie等人[16]构造了一个拉普拉斯矩阵,以使特征子空间保持原始数据的局部结构(local structure)。为了利用观察中固有的关系信息(relational information),Zhu等人[17]和Lei等人[18]使用关系正则化relational regularization terms来选择AD诊断中联合回归和分类的特征。此外,一些经典方法,如线性判别分析(linear discriminant analysis LDA)和主成分分析(principal component analysis PCA),也被广泛应用于AD相关研究[19],[20]。虽然已经提出了各种feature selection/reduction方法,但仍有两点需要进一步提高多模态模型的有效性。

首先,当前的方法通常选择原始特征空间中的特征。然而,参考[11]和[12]中的讨论,将原始多模态数据映射到潜在空间有助于确定不同模态之间的潜在特征。因此,利用该潜在空间(latent space)中的特征可以提高模型的诊断性能。其次,以前的研究通常分别进行feature reduction and classifier construction,通过联合训练feature reduction and classifier construction来进一步提高模型的性能[21]。

【为什么将原始多模态数据映射到潜在空间有助于确定不同模态之间的潜在特征】

在训练阶段(图1-A),框架首先通过学习原始空间和共享空间之间的双向映射来获得共享表示。一方面,我们希望通过引入投影矩阵P,从多模态数据中学习潜在的判别表示,该矩阵进行原始到共享的转换。另一方面,我们也期望共享表示能够尽可能地保留原始信息,从而利用重构矩阵Q实现共享到原始的转换。我们进一步通过权重矩阵W将共享表示U投影到目标空间(即标签空间),其元素表示U中相应特征向量对最终AD诊断的重要性。因此,表示学习(从原始空间到共享空间)和分类器建模(从共享空间到标签空间)被集成到统一框架中,并且可以同时进行优化(详情见第三节)。为了鼓励学习存在于多模态数据中的潜在关联,以便为AD诊断归纳出更具distinguishing表示,我们为共享空间设计了三种关系正则化器,如图1-B所示,包括feature-feature, feature-label, and sample- sample regularizers。

【正则化器为什么能够学习存在于多个模态数据中的潜在关联?】

所设计的正则化器的基本原理如下:(1)所学习的特征之间应保持低冗余。我们假设,如果一个特征可以由共享空间中其余特征的线性组合来表示,则当使用线性分类器进行预测时,它被视为冗余特征。冗余特征对准确分类模型构建贡献较少的额外信息(如图1-B1所示,feature-feature regularizer)(2)学习的特征要求与标签高度相关。discriminative特征应具有估计标签的能力,因此需要与标签紧密连接(如图1-B2所示,feature-label regularizer);(3) 为了增强共享空间中的类可分性(class separability),期望相同类样本的潜在表示彼此接近,并且不同类中心的距离尽可能大(如图1-B3,sample-sample regularizer)。我们将在第三节中详细描述regularizers。最后,在测试阶段(图1-C),测试样本的临床标签可以通过两个连续的投影矩阵进行预测,即投影矩阵P和权重矩阵W。为了验证我们提出的方法的有效性,我们在两个独立的数据集(即ADNI-1和ADNI-2)上进行了广泛的实验。

contributions

·双向Bi-directional映射同时考虑数据投影和数据重建(data projection and data reconstruction),这有助于学习尽可能保留原始信息的潜在共享空间。

•设计了几个正则化器,以探索在共享空间中诱导区分表征学习的潜在关联。Feature-wise regularizers使共享表示更加compact and discriminative,而sample-wise regularizers旨在增强共享空间中的类可分性。

•表征学习、降维和分类器建模的统一使得能够联合优化这三个部分,并以有效的方式进行训练和测试过程。实验结果表明,我们提出的方法不仅可以进行准确的预测,而且可以发现潜在的AD识别生物标志物(biomarkers for AD identification)

【什么是AD识别生物标志物】

---DATA AND IMAGE PREPROCESSING---

ADNI database http://www.loni.usc.edu

包含AD的神经影像学、临床和遗传学信息(neuroimaging, clinical, and genetic information for AD)

我们收集了820名ADNI-1和ADNI-2的MRI和PET图像完全匹配的受试者。根据一些临床标准,如临床痴呆评分和简易精神状态检查评分(clinical dementia rating and mini-mental state examination score),这些受试者被分为三类,即正常对照组(normal control NC)、MCI和,由于部分MCI受试者会转化为AD,而其他受试者会随着时间的推移而稳定,因此MCI受试者进一步分为进行性progressive MCI(pMCI)和稳定的MCI(sMCI)。

93 AD, 99 NC, 121 sMCI, and 79 pMCI from ADNI-1 and 136 AD, 107 NC, 103 sMCI, and 82 pMCI from ADNI-2 were enrolled.

我们下载了1.5T或3T扫描仪采集的原始MRI图像,这些图像采用各种个性化协议。ADNI研究人员对所有图像进行了审查,并对B1场不均匀性和梯度非线性(B1 field inhomogeneity and gradient nonlinearity)引起的空间失真进行了校正。我们的图像预处理包括以下步骤:(1)通过MIPAV软件进行前连合-后连合(anterior commissure-posterior commissure AC-PC)校正correction,(2)使用N3算法进行强度不均匀性校正[22],(3)使用aBEAT进行颅骨剥离和小脑切除(skull stripping and cerebellum removal),(4)三个主要组织(即灰质(gray matter GM)、white matter 白质,和脑脊液cerebrospinal fluid)通过FAST 算法进行分割[23],(5)通过HAMMER将图像配准到template[24],以及(6)将90个感兴趣区域(ROI)标签从模板投影到每个对象图像。对于每个受试者,我们计算每个ROI的GM组织体积,并将其视为特定的基于ROI的特征。对于PET图像,我们使用仿射配准将它们与相应的MRI图像对齐,并计算每个ROI的平均强度值作为其特征。最后,我们获得了每个受试者的90个MRI特征和90个PET特征。

---方法---

A. Regularized Regression

在式(1)的第一部分中,标签矩阵Y可以通过特征矩阵X的线性变换来估计。为了避免过拟合问题和提高泛化性能,在最小二乘回归模型中嵌入了许多正则化项。例如,ridge regression使用L2范数在数据拟合和模型简单性之间进行权衡。Lasso regression利用L1范数建立更稀疏的模型。此外,经典正则化项的变体也被用于鼓励等式(1)中的第一部分满足某些性质[17],[18]。

【正确理解正则化的优势】

B. Relation-Induced Multi-Modal Shared Representation Learning

为了从多模态神经图像中学习综合信息,我们假设多模态数据可以投影到共享空间,共享空间的表示也可以重构原始特征。

中间两项用于学习潜在的共享表示。到目前为止,等式(3)已经将表征学习和分类器建模集成到一个统一的框架中,该框架鼓励以面向任务的方式学习discriminative的多模态共享表征。

为了探索多模态数据中的潜在关联,以便在共享空间中学习更紧凑和更具区别性的表示,我们设计了几个基于feature-feature, feature-label, and sample- sample relation正则化项,并使用它们来惩罚目标函数。首先,假设一个特征可以用共享空间中其余特征的线性组合来表示,则当使用线性分类器进行预测时,该特征被视为冗余特征。在这项工作中,我们将这种关系称为feature-feature relation。

虽然特征正则化器可以诱导学习低冗余共享表示,但不能保证这些表示能够准确估计临床标签。直观地说,鉴别特征需要与标签有紧密的联系(即高度相关性),因此我们将此关系称为feature-label relation,并定义正则化器如下:

其中引入负号将最大化问题转化为最小化问题。与基于互信息选择特征的过滤方法最大相关和最小冗余(mRMR)算法[26]不同,我们提出的方法将设计的特征-特征和特征标签正则化器嵌入到目标函数中,以面向任务的方式诱导学习低冗余和高相关的AD诊断共享表示。值得一提的是,正交约束(orthogonal constraint)已广泛应用于子空间学习。然而,以往的研究大多只关注特征冗余,而忽略了特征与标签之间的相关性。受mRMR方法的启发,我们希望共享表示具有最小冗余和最大相关性。在这种情况下,正交约束可能过于严格,无法保证特征和标签之间的紧密关系。因此,我们定义了一种新的feature-feature regularizer,以降低特征之间的相关性。

【什么是正交约束?】

此外,当同一类样本的共享表示彼此接近且不同类中心的距离尽可能大时,更容易分离不同的类样本。因此,我们引入了第三个sample- sample relation来增强共享空间中的类可分性。

因此, sample-sample relation推导出两个sample-sample regularizers。通过一些代数步骤algebraic steps,我们可以得到并最小化公式(11)和公式(12)的修改版本,如下所示:

值得注意的是,需要进行归一化,以保证等式(14)中的平均值为零

C. Optimization

等式(15)中的目标函数对于所有变量U、P、Q和W都是非凸的。幸运的是,当其他变量固定时,它对于这四个变量中的任何一个都是凸的。在下一节中,我们使用迭代算法来有效地解决问题。

【非凸的?】

identical matrix恒等矩阵

---实验结果---

A. Experiment Settings

在这项研究中,我们关注三个分类任务,即AD与NC、pMCI与sMCI、MCI与NC。首先,我们将我们提出的框架与几种传统方法进行比较,下面简要介绍这些方法的细节。

对于Baseline方法和将特征约简和分类器训练视为两个独立过程的方法(LRL、CMLS、LDMI和HFCN除外),我们通过LIBSVM工具箱[29]建立了用于分类的支持向量机模型(SVM).

同时调整所有参数既耗时又低效,因此每次通过固定其他分类参数来确定参数。我们使用10倍交叉验证策略评估了所有比较方法。使用几个指标来评估所有比较方法,包括曲线下面积(area under curve AUC),accuracy (ACC), specificity (SPE), and sensitivity (SEN)

最后,考虑到与其他指标相比,AUC更常用于评估基于不平衡类数据集的模型[30],我们对我们的方法和竞争方法的分类任务进行配对t检验 paired t-tests(95%显著性水平 95% significance level)。#表示我们提出的方法与其他比较方法之间存在显著差异,p值<0.05。

B. Diagnostic Performance

首先,多模态融合方法可以利用互补的多模态信息来提高诊断模型的性能。实际上,与基线、MKL和CFS方法相比,LRL方法获得了最好的性能。一个潜在的原因是LRL联合学习潜在公共空间和分类器,这有助于以任务驱动的方式捕获有用的多模态信息。此外,我们还实现了该方法的两个单模态变体(称为proposed_MRI和proposed_PET),以证明多模态融合的优越性。实验结果揭示了多模态数据提供的互补信息的好处。第二,在处理高维多模态数据时,feature selection/reduction非常重要。与没有任何feature selection/reduction的基线方法相比,其他方法在所有三项任务上都获得了更好的分类性能。值得一提的是,RRFS和RrDSL都产生了显著的改进,尤其是在pMCI与sMCI以及MCI与NC任务上,这可能归功于relational regularization的使用。第三,与传统的学习方法相比,我们提出的方法在所有三个任务上都取得了最好的性能。该方法具有以下几个潜在优势:1)与common space based learning(如LRL、CMLS和SCCA)不同,LRL、CMLS和SCCA仅使用单向映射,该方法使用双向映射同时考虑数据投影和重构,这有助于学习尽可能保留原始信息的信息共享空间。2)设计了几个正则化器来探索共享空间中多模态数据的潜在关联(与LRL、CML和SCCA不同)。此外,我们提出的方法中regularizers的定义也不同于RRFS和RrDSL中的regularizers定义。在本文中,feature-wise regularizers方法使共享表示low-redundant among themselves and high-relevant with labels,而sample-wise regularizers旨在增强共享空间中的类可分性。3) 表示学习和分类器建模的统一为每个组件提供了在优化过程中相互交互和监督的通道,这不同于基线、MKL、CFS、RrDSL、RRFS和SCCA。第四,与基于深度学习的方法(LDMI[28],HFCN[21])相比,我们的方法在大多数指标方面仍能产生更好的分类结果。一个潜在的原因是,用于训练深度学习模型的可用数据有限。与深度学习方法类似,该方法以任务驱动的方式学习潜在表征。通过对比,我们提出的方法具有以下优点:1)捕获了共享空间中多模态数据的潜在关联,包括feature-feature redun- dancy, feature-label relevance, and class separability.2) 该方法只包含少量参数,不涉及耗时的参数细化,也不依赖大量的训练样本进行模型训练。此外,我们的实验还表明,参数对multi-site datasets具有鲁棒性(见E。参数的影响)。3) 与深度学习方法相比,我们的方法更具解释性,这有助于发现对AD诊断有用的生物标志物。

C. Effectiveness of Relational Regularizers

1) 与基线方法和一些多模态融合方法相比,SRL方法获得了更令人满意的结果,这意味着使用双向映射的共享表示学习(无关系正则化)也可以有效地提高分类性能。2) 所有具有不同关系正则化子的SRL变体都优于SRL,这表明这些正则化可以通过探索共享空间中多模态数据的潜在关联来帮助诱导学习更具区别性的共享表示。此外,我们可以观察到,与SRL_RFF和SRL_RFY相比,SRL_RSS在AD分类和NC分类方面的改进相对较小,但在pMCI和sMCI以及MCI和NC分类方面,仍然表现出明显的性能改进,尤其是在ACC和AUC方面,这表明它可能有助于了解这两项任务的更微妙的信息。3) 所提出的方法包括feature-feature, feature-label, and sample-sample regularizers,在所有三项任务中都取得了最佳性能。所有这些变体(SRL除外)只关注共享表示的单个透视图,这不足以对多模态数据进行复杂的探索。我们的完整方法包含了特征和样本两种正则化方法,不仅可以诱导低冗余和区分性共享表示的学习,而且可以提高共享空间中的类可分性。

D. Effectiveness of Bi-Directional Mapping

我们通过从提出的框架及其变体中分离Q相关项来进行实验。

分类结果见表六,其中*表示分离矩阵Q。比较表V和表VI,我们可以观察到,就大多数度量而言,所提出的方法及其所有替代版本(即SRL、SRL_RFF、SRL_RFY和SRL_RSS)在三个分类任务上都优于其相应的单向映射模型。一个合理的解释是,重建矩阵Q可以有效地调整共享表示以保留原始信息,并与投影矩阵P很好地协作以捕获多模态数据中的复杂信息。换句话说,双向映射同时学习矩阵P和Q,以确保共享表示U具有表示和重构能力。此外,在测试阶段,我们希望使用学习的变换矩阵直接预测测试样本,并绕过任何中间过程,例如逆运算the inverse operation

E. Influence of Parameters

共享表示k的维数与正则化子参数λi (dimension of shared representations k and regularizer parameters λi)

对于k,我们首先确定其他参数,并在每个实验的{20,25,…,40}范围内确定k。

此外,在我们的实验中,我们发现当ρi和γi在[10]的范围内时,ρi和γi对模型的影响很小,在AUC为0.965±0.011、0.824±0.027和0.799±0.021的情况下,通过AD与NC、pMCI与sMCI以及MCI与NC的模型分别获得最佳平均性能。

---讨论---

A. Comparison With Previous Studies

在TABLE VII中,我们粗略总结了我们的结果,并将其与文献中几种最先进的方法[31]–[39](包括传统机器学习方法[31]–[36]和深度学习方法[37]–[39])进行了比较。

尽管由于不同的对象数量和不一致的数据集分区,这些方法之间的直接比较是不可能和不公平的,但我们仍然可以得出一些猜测:1) 多模态融合方法[32]、[33]可以通过探索AD诊断多模态数据固有的综合特征来学习更多的鉴别信息。2) 更大的数据集将进一步提高分类器的预测性能,这可以通过收集更多数据和一些处理不完整数据的技术(例如,生成性对抗网络[39])来获得。3)模态的增加会提高分类性能,通过为AD[33]、[37]提供信息丰富的specific views。

与大多数传统的机器学习方法相比,该方法采用双向映射,同时考虑了数据投影和重构。这样,可以找到保留原始信息的信息共享空间。此外,共享空间中的多模态数据的潜在关联(即冗余、相关性和类别可分性)由若干关系正则化器捕获。此外,该方法通过将表示学习和分类器集成到一个统一的框架中,以任务驱动的方式学习潜在的判别表示。尽管深度学习方法也是学习判别特征的端到端框架,但很少有研究关注多模态潜在关联underlying associations。此外,与深度学习方法不同,我们提出的方法对于发现有用的生物标记物更具解释性,并且参数较少,对multi- site datasets具有鲁棒性。

B. Related ROIs

除了学习到的共享表示之外,我们仍然对ROI感兴趣,ROI对共享空间的构建做出了巨大贡献。基于等式(15),投影矩阵P的每一行向量对应于原始特征矩阵[XM,XP]的列向量(或特征向量)。投影矩阵P的每一行向量的L2范数越高,[XM,XP]的对应特征越重要,反之亦然。因此,我们对投影矩阵P行向量的L2范数进行排序,并为每个模态选择前10个ROI。图5显示了基于ADNI1和ADNI2的所有三个任务的选择结果。结果表明,在MRI和PET中,选定区域包括海马、壳核、脑岛、苍白球和不同的脑回(如海马旁回、颞中回和中央后回),以及眶额皮质、颞极、额上回、辅助运动区和海马。hippocampus, putamen, insula, pallidum, and different gyri (such as parahippocampal gyrus, middle temporal gyrus, and postcentral gyrus) in MRI and orbitofrontal cortex, temporal pole, superior frontal gyrus, supplementary motor area, and hippocampus in PET. 先前的研究[40]–[43]也证明这些区域对AD相关的诊断更有帮助。

【仅对一部分区域进行投影?如何识别投影的roi? 看数据处理部分】

---结论---

在本文中,我们提出了一个用于AD诊断的关系诱导多模态共享表示学习框架。该方法将表示学习、降维和分类器建模集成到一个统一的框架中。在这个共享空间中,我们分别利用几个关系正则化器(包括特征、特征标签和样本正则化器)和辅助正则化器来诱导多模态数据中固有的学习潜在关联,并缓解过度拟合。然后将共享表示投影到目标空间进行AD诊断。实验结果表明,我们提出的方法不仅优于几种最先进的方法,而且还识别了一些潜在的AD诊断生物标志物。在未来的工作中,我们将研究我们提出的方法在其他脑部疾病诊断中的可行性。

你可能感兴趣的:(2021-08-23-Relation-Induced Multi-Modal Shared Representation Learning for Alzheimers Disease Dia...)