《Multimodal Neuroimaging Feature Learning for Multiclass Diagnosis of Alzheimer’s Disease》 多模式神经影像学特征学习用于阿尔茨海默病的多类诊断
Abstract
阿尔茨海默病(AD)的准确诊断对于患者护理是必不可少的,并且随着疾病调节剂在疾病早期可用而变得越来越重要。虽然研究已将机器学习方法应用于AD的计算机辅助诊断,但由于缺乏表示神经影像生物标记物的有效策略,因此在先前的方法中显示出诊断性能的瓶颈。在这项研究中,我们设计了一个新的诊断框架与深度学习架构,以帮助诊断AD。该框架使用零掩蔽策略进行数据融合,以从多种数据模式中提取补充信息。与之前最先进的工作流程相比,我们的方法能够在一个设置中融合多模态神经成像功能,并且可能需要较少标记的数据。 AD的二元分类和多类分类均实现了性能提升。讨论了拟议框架的优点和局限性。
Index Terms—Alzheimer’s disease (AD), classification, deep Learning, MRI, neuroimaging, positron emission tomography (PET).
I. INTRODUCTION
ALZHEIMER'S疾病(AD)是一种退行性脑紊乱,其特征是进行性痴呆,其特征在于特定神经细胞的退化,神经炎斑块的存在和神经原纤维缠结[1]。记忆和其他认知功能的下降是通常的早期综合症。由于社会年龄的增长,AD将成为未来几十年的全球负担。据报道,2006年全世界共有2660万例AD病例,其中约56%的病例处于早期阶段。预计到2050年,AD患者人数将增长四倍,达到1.068亿[2]。 AD的精确诊断被认为是一项困难的临床任务,其特异性不足,因为当意识受损时,不能对精神状态进行评估。另一个困难是由于其他非AD痴呆综合征的混乱引起的。轻度认知障碍(MCI)是AD的一个前驱阶段,最近引起了研究人员的注意,因为它对临床试验很有用。尽管MCI并未显着干扰日常活动,但已经不断证明MCI患者存在AD进展的高风险[3]。为了预测MCI的转变风险,可以将MCI受试者进一步分类为MCI转换器(cMCI)和MCI非转换器(ncMCI)。检测早期阶段以及整个AD进展范围是至关重要的;因此,在发生不可逆的脑损伤之前,允许患者控制危险因素,例如单纯收缩期高血压[4],[5]。神经影像学技术,如磁共振成像(MRI)[6] - [11]和正电子发射断层扫描(PET)[12] - [18],已被广泛用于AD的评估,以及许多其他非成像生物标志物[ 6],[19],[20]。
已经提出机器学习方法来帮助AD的诊断。预先计算的医学描述符被广泛用于表示生物医学图像。近似测量,例如体积[21]和葡萄糖的脑代谢率(CMRGlc)[22],通常是根据分割的3-D脑区域(ROI)计算出来的,并用于AD分类。支持向量机(SVM)[23],贝叶斯方法[24],或其他方法[25],[26]。但是,此类工作流程存在一些限制。基于这些传统机器学习者的方法通常在二元分类中很好地工作,例如从正常对照(NC)受试者中分类AD受试者,但是很难将它们扩展到多类[27]。因此,虽然AD的诊断应该自然地建模为多类分类问题,但它通常被简化为一组二元分类任务[23,28],将AD或MCI受试者与NC受试者区分开来。另一个限制是嵌入临床先验知识。 Liu等人最近提出了一种基于图切割算法的方法。 [10]。该工作流程调整了图形切割算法,其参数对应于AD的不同阶段之间的关系。虽然这种定制往往会产生有希望的分类结果,但工作流程可能对数据集的变化很敏感,并且很难扩展到大规模。 AD诊断的另一个挑战是以无监督的方法表示原始生物标志物。一些框架以监督的方式降低每种生物标记物的维度,然后融合特征形态以形成新的特征空间[29] - [31]。这种工作流程在很大程度上取决于难以实现的标记样品的数量。分离维数减少和数据融合也可能导致丢失补充信息。
我们相信,通过设计新的框架来有效地表示多种生物标记并有效地表征AD的多个阶段,可以优化先前的工作流程。具有浅结构和仿射数据变换的传统特征工程工作流通常简单地导致特征重复或维度选择。正如许多最近的研究所示,通过解开输入中的复杂模式,深度数据表示可以比多类分类中的浅层架构更有效[32] - [36]。深度学习架构通过多层特征表示逐步提取高级特征[37]。由于特征空间的连续变换,高级特征在分类问题中往往更加可分。
使用MR的Brosch和Tam报告说,多层学习结构能够有效地捕获与人口统计学和疾病信息相关的大脑区域的形状变化,例如心室大小[38]。在Suk等人提出的框架中。 [39],对每种图像模态训练一个堆叠自动编码器(SAE)设置;然后,学习的高级特征进一步与多核支持向量机(MKSVM)融合。在这样的工作流程中,无论其他模态如何,都可以学习单模态高级特征,这可能会忽略特征学习中不同模态之间的协同作用。
在这项研究中,我们提出了一种新的多层AD诊断框架,其中嵌入了深度学习架构,其受益于多模态神经影像学特征之间的协同作用。该框架由SAE和soft-max逻辑回归器构成。自动编码器以无人监督的方式表示数据,可以扩展为在实践中使用未标记的数据。当提供多模态神经影像图像数据时,所提出的框架能够进行数据融合。遵循去噪自动编码器的概念[40],我们将双掩模策略应用于双峰深度学习任务,以提取不同图像模态之间的协同作用。通过随机隐藏训练集的一种形态,神经网络的隐藏层倾向于能够通过推断多模态特征之间的相关性来重构丢失的模态与损坏的输入。通过深度学习架构中嵌入的soft-max回归,我们的框架能够将AD患者分为四个AD阶段。
本文的其余部分安排如下。我们在第二部分介绍了拟议的学习框架和培训策略。本研究的实验和结果见第III节。我们在第四节和第五节讨论了该文件的拟议框架和结论。
II. METHODOLOGY
所提出的框架的流程如图1所示。在该研究中,MR和PET数据被用作两种输入神经成像模态。 首先对所有收集的脑图像进行预处理并将其分割成83个功能ROI,并从每个ROI计算一组描述符。 数据集分为训练集和测试集。 我们仅对训练样本执行弹性网[9],[41],[42],以选择特征参数的判别子集。 然后使用训练数据集中的所选特征子集训练由若干自动编码器组成的多层神经网络。 网络的每一层都通过非线性变换获得了前一层的更高层次的抽象[43] - [45]。 softmax层添加在SAE的顶部以进行分类。 然后用标记的测试样品评估训练的网络。
A. Data Acquisition and Feature Extraction
本研究中使用的神经影像学数据来自阿尔茨海默病神经影像学倡议(ADNI)数据库1 [46]。该数据库于2003年由国家老龄化研究所,国家生物医学成像和生物工程研究所,食品和药物管理局,私营制药公司和非营利组织发起,作为一个为期五年的公共合作伙伴关系。 ADNI项目的主要目的是研究结合多种生物标记物(如MRI,PET和CSF数据以及神经心理学评估)预测MCI和早期AD的进展的效果。大约200个正常实例和400个MCI实例被跟踪了三年; 200名AD患者在两年内随访。确定敏感的生物标志物对AD的进展也可能有助于临床医生发现新的治疗方法,以及其他可能的生物医学探索。
我们从ADNI获得了两个数据集。对于仅具有MR图像的数据集,从ADNI库中回收了816个年龄和性别匹配的受试者,并从每个受试者获得T1加权的MR图像。我们排除了20名具有多次转换或逆转的受试者以及数据不完整的21名MCI受试者。我们将从第一次扫描起0.5至3年转换为AD的MCI受试者标记为cMCI,否则将MCI受试者标记为ncMCI。正常受试者和AD患者被标记为NC和AD [10]。所有原始MR图像均按照ADNI MR图像协议进行校正,并使用图像配准工具包[48]非线性地注册到ICBM_152模板[47]。由于无法容忍的失真,仅排除了17张图像。最后,758名MR受试者被保留用于在该研究中进行的实验,包括180名AD受试者,160名cMCI受试者,214名ncMCI受试者和204名正常老化对照受试者。
对于具有多模式数据融合的数据集,从基线群组中选择331个年龄和性别匹配的受试者,包括77个NC-,102个ncMCI-,67个cMCI-,85个AD受试者,其具有MR和PET数据。每个实例都与T1加权体积和FDG-PET图像相关联。使用前面描述的MR图像的类似工作流程对所有3-D图像进行预处理。使用FSL FLIRT将PET图像与相应的MR图像对齐[49]。
对于每个注册的三维图像,使用增强配准方法的多特征传播在模板空间中映射了83个脑区[50]。从MR图像中提取灰质体积,与[9]和[10]相同。对于PET图像,我们提取了与[22]和[51]相同的区域平均CMRGlc特征。然后,我们将特征归一化为介于0和1之间,以通过移位负值和重新缩放来支持S形解码器。
B. Learning Framework
1) Pretraining SAEs
2) Multimodal Data Fusion::当多个图像时,模态用于模型训练,需要模态融合方法来发现不同模态之间的协同作用。共享表示可以通过联合训练自动编码器和连接的MR和PET输入来获得。第一个共享隐藏层用于模拟不同数据模态之间的相关性。然而,简单的特征连接策略通常导致隐藏的神经元仅由单一模态激活,因为MR和PET的相关性是高度非线性的。灵感来自Ngiam等人。 [54],我们将预训练方法应用于一定比例的损坏输入,这些输入仅提供一种模态,遵循深度建筑训练的去噪概念。通过用0替换这些输入,随机隐藏其中一种形式;其余的训练样本都有两种形式。训练第一自动编码器的隐藏层以重建来自与隐藏模态混合的输入的所有原始输入。原始输入和破坏的输入独立地传播到神经网络的较高层,以使用相同的神经网络获得清洁表示和噪声表示。然后逐步训练每个较高层以从传播的噪声表示重建清洁的高级表示。因此,一些隐藏的神经元有望推断出不同神经影像学模式之间的相关性。
3) Fine-Tuning for AD Classification
对于AD诊断,我们将任务建模为包含四个预定义标签的四级分类问题:NC,cMCI,ncMCI和AD。 虽然无监督网络学到的特征也可以转移到传统分类器,但是,软性逻辑回归使我们能够通过微调联合优化整个网络。
由无监督网络提取的特征通过softmax回归[55]输入到输出层。 softmax层使用不同的激活函数,其可能具有与先前层中应用的非线性不同的非线性。
...
C. Feature Examination
III. EXPERIMENTS AND RESULTS
A. Visualization of High-Level Biomarkers
利用第II-C节中描述的特征检查方法,我们计算了每个脑ROI的稳定性得分,并将稳定性得分映射到NC对象的掩蔽的3-D MR图像(83个ROI),如图3所示。 各种投资回报率之间的区别清晰可见。 较暗的区域往往比较轻的ROI对AD和MCI的进展更敏感,因为从这些ROI中提取的特征往往同样有益于所有隐藏的神经元。 光区域未被表示为完全无关紧要,但携带较少的预测信息。
B. Performance Evaluation
我们将提出的框架与使用单核SVM和MKSVM的广泛应用的方法进行了比较[23],[28]。为了评估所提出的数据融合方法,我们将零掩模方法与[39]中提出的架构进行了比较,该架构独立地训练两个SAE,然后在每个SAE经过微调后将高级特征与MKSVM融合。如第II-A部分所述,使用从MR图像和PET图像中提取的相同特征评估所有实验。
拟议的框架在MATLAB 2013a上实施。基于SVM的实验使用LIBSVM [58]进行。 MKSVM是通过使用预先计算的内核并使用相对权重融合多个内核来实现的。
通过使用十倍交叉验证进行评估。在包括多种模态的实验中,我们将性能与仅单模态数据,MR或PET以及具有两种模态的数据融合方法进行了比较。为避免“幸运试验”,我们从每个班级中随机抽取训练和测试实例,以确保它们与原始数据集具有相似的分布。对整个网络进行了培训,并使用90%的数据进行了微调,然后在每个验证试验中对其余样本进行了测试。在每个验证试验中使用对数域中的近似搜索选择所有比较方法的超参数以获得最佳执行模型[59]。在所有基于神经网络的实验中使用了两个隐藏层,因为添加额外的隐藏层未显示AD分类的进一步改进。假设两个非线性变换可以理想地表示AD分类的神经影像学特征是合理的。根据每个折叠中的分类性能,在30和200之间选择隐藏层中的神经元数量。在每个神经网络中,隐藏层共享相同数量的隐藏神经元[60]。使用训练样本训练MKSVM。按照[23]中的工作流程,通过步长为0.1的粗网格搜索选择MKSVM中每个内核的相对权重。在使用MKSVM融合两个SAE网络的实验中,每个SAE首先进行预训练并用训练数据进行微调,然后,从每个网络获得的高级特征与MKSVM融合,并采用前面所述的程序。
1)MR实验(758名受试者):我们首先用758个3-D MR图像评估了所提出的框架。由于仅呈现了一种模态,因此在SVM和所提出的方法中都没有使用模态融合策略。
表I中显示了二元分类(NC与AD和NC与MCI)的性能。前两列是各个类的精确度,以下三列是整体性能,包括准确度,灵敏度和特异性。所提出的方法(SAE)在通过引导总体准确性(82.59%)和总体灵敏度(86.83%)对来自NC受试者的AD受试者进行分类方面优于SVM。这两种方法的总体特征非常接近(78.89%和77.78%)。在从MCI分类NC的所有整体性能测量中,所提出的方法优于SVM。所提出的方法在对NC受试者进行分类时实现了高出5%的精确度。
表II中显示了多类分类的性能。前四列是各个班级的精确度,以下三列是整体表现。所提出的方法在三个类别中比SVM执行更好的精确度(NC为52.40%,cMCI为38.71%,AD为46.89%)。所提出的方法导致总体准确度(46.30%)和总体特异性(77.78%)。 SVM实现了更高的灵敏度(75.00%)。总之,当仅呈现MR数据时,我们提出的方法在二元和多类AD分类问题中的大多数性能测量中优于最先进的基于SVM的方法。
2)MR和PET实验(331名受试者):共有331名受试者同时获得MR和PET数据。我们首先仅使用MR图像(SVM-MR,SAE-MR)或PET图像(SVM-PET,SAE-PET)评估SVM的性能和所提出的基于SAE的方法。多核SVM的融合模式的性能显示为MKSVM。对于深度学习方法,我们将提出的零屏蔽训练策略(SAE-ZEROMASK)与简单特征连接(SAE-CONCAT)进行了比较。
二元分类性能显示在表III中。可以观察到,两种模态的实验(MKSVM,SAE-CONCAT和SAE-ZEROMASK)比在二元分类任务中仅具有单一模态的实验产生更好的性能。 SAE-CONCAT的总体准确度略高于MKSVM(90.15% - 90.11%和77.65% - 76.88%)。可以观察到,当使用所提出的SAE-ZEROMASK方法时,与SAE-CONCAT相比,所有测量中的性能都得到了提高。与ZERO-MASK相比,MKSVM在分类NC和AD方面的特异性略高。尽管SVM-MR在MCI上的精度略高(83.92%),但可以认为这种性能可能是由于决策失衡(NC上只有67%)。在所有方法中,SAE-ZEROMASK在NC和MCI之间的分类中取得了最均衡的表现(NC为81.95%,AD为83.88%),当MCI占据数据集的很大一部分时,这是相对困难的(246中有169个) )。所提出的只有一个神经网络的数据融合方法SAE-ZEROMASK与2SAE-MKSVM实现了相当的性能,2SAE-MKSVM融合了来自两个独立训练网络的两个高级特征矩阵。 2SAE-MKSVM的准确率并不明显高于简单特征串联(77.90%至77.65%),因为在实验中观察到MKSVM为特征融合添加的仅保留了单模网络实现的更高精度。一些验证试验。
多类分类的性能如表IV所示。提议的框架与输入损坏(SAE-ZEROMASK)导致整体准确性和特异性(53.79%和86.98%)。基于深度学习的方法(SAE-CONCAT和SAE-ZEROMASK)引领NC,cMCI和AD的精确度。 cMCI的精确度受到cMCI实例数量的限制(331个中的67个),并受其兄弟类ncMCI(102个实例)的影响。对于ncMCI,SAE-ZEROMASK和MKSVM实现的精确度非常接近。与简单的特征串联(SAE-CONCAT)相比,SAE-ZEROMASK将整体精度提高了约5%。 SAE-ZEROMASK在整体准确性和特异性方面也优于其他数据融合选项2SAE-MKSVM。基于SVM的方法往往具有更好的灵敏度。
IV. DISCUSSION
A. Model Designing and Training
研究表明,学习具有原始数据的多重非线性表示的体系结构将产生有意义的分类特征[56],[61] - [63]。为了在AD受试者中进行准确诊断,我们研究了神经影像生物标志物的多层表征在AD分类中的应用。我们的研究结果表明,多层结构可用于区分MR和PET受试者沿着AD进展的频谱,其准确度高于传统的浅层结构。分类的性能主要受益于学习架构的深度(来自复杂性理论的概念),其可以被示为特征空间的非线性变换序列。在微调期间,神经成像特征空间被扭曲和折叠以最小化训练数据上的分类损失。因此,在几层变换之后,不可分割的样本将在学习的高级特征空间中变得可分离。与传统方法相比,所提出的框架在提取基于神经影像学的ROI生物标记物之间的复杂相关性以及不同的特征形态方面更为强大。使用多层结构进行AD诊断的另一个动机是重复使用高级特征进行半监督学习[64]。除了监督数据融合或降维[29]之外,所提出的工作流程可以很容易地扩展到使用未标记的神经影像数据。
我们将不同的数据模态与所提出的零掩模融合策略结合起来,通过随机隐藏的一种模态传播噪声信号。训练自动编码器以利用损坏的输入信号重建原始输入信号。我们还试图避免在不同的数据模式上训练单独的神经网络,因为这可能会在特征学习期间忽略补充信息。具有一种隐藏模态的训练对象倾向于迫使一些神经元对MR和PET输入敏感,这使得零掩模融合网络不同,因为它具有两个独立的特征学习网络。值得注意的是,2SAE + MKSVM在NC和AD的二元分类中也实现了91.4%的总体分类准确度和91.67%的更高特异性。这可能表明,当不同特征聚类之间存在相对较大的边界时,两个特征融合方法之间的二元决策边界可能相似。观察所涉及的不可转换和可转换MCI主题的实验结果,我们假设当在嘈杂训练集中包括更微小的差异和更多异常值时,所提出的零掩模方法可能具有更多优点。
我们应用特征工程管道来提取MR和PET图像的初始ROI测量结果作为输入,而不是使用原始图像补丁进行医学特征学习.AD相关患者的三维医学图像之间的差异往往是微妙的,方差往往很大。从这个角度来看,网络决策系统的隐藏神经元也可以被解释为诊断规则的自动编码推断[65]。我们的实验表明,在使用ROI预计算特征时,无监督网络在预训练中实现了两个隐藏层的最佳性能。这意味着与使用原始图像作为输入的学习任务相比,当使用近似测量的成像特征时,实际上需要相对较浅的架构[38]。在我们的实验中,所有隐藏层中具有相同数量神经元的网络通常表现得更好。我们发现过度完成的歧管或低维流形都产生了AD分类的有效特征。根据不同的训练集选择隐藏神经元的数量。
使用弹性网的特征选择增强了所有检查方法的性能。它有助于控制由噪声和冗余特征参数引起的过度拟合。值得注意的是,大多数选定的特征参数都是由弹性网一致选择的。具有较少选择的特征参数的验证试验倾向于具有较高的泛化误差,这可能是由于训练集中包含的偏差异常值。
虽然提取的特征可以被其他一些传统的分类器使用,例如SVM,但我们将输出层与softmax回归连接到无监督网络。由于与其他层使用的非线性不同,softmax回归对应于多项式对数输出变量。结果,它能够在几个AD阶段之间对样本进行分类;它还简化了训练的微调阶段,因为softmax层可以与隐藏层共同优化。我们还研究了将微调功能转移到除嵌入式softmax回归器之外的流行分类器的框架设计。有趣的是,我们将深度学习网络学到的相同高级功能作为输入,所有被调查的分类器都倾向于做出高度一致的决策。
B. Limitations and Future Work
考虑到可用神经成像数据的数量有限,我们假设可以使用可能具有较小方差的更多训练样本进一步提取不同生物标记之间的协同作用。所提出的数据融合策略遵循训练自动编码器的去噪方式,理论上增加了特征学习的难度,但控制了过度拟合。尽管四类AD分类的预测概率分布在决策系统中可能更具实际用途,但是在多类分类框架应用于临床应用之前,我们应该改进用可用数据集实现的性能。 。我们比较我们的方法的所有方法都倾向于过度拟合,但在训练集上具有高精度并且在测试集上具有低精度。由于具有神经网络(2SAE-MKSVM和SAE-ZEROMASK)的多模式学习架构是参数模型,我们假设当有更大的数据集时,它们可能有可能在多类AD诊断上获得更好的诊断准确性。这将允许以较低的方差更好地提取与主题无关的特征。
五,结论
我们提出了一种新的嵌入式深度学习AD诊断框架。该框架可以区分AD进展的四个阶段,并且需要较少的临床先验知识。由于无监督的特征表示嵌入在此工作流程中,因此在实践中有可能扩展到更多未标记的特征工程数据。在无人监督的预训练阶段,我们使用SAE来获得高级特征。当使用多种神经影像学模型时,我们应用零掩蔽策略来提取去噪方式之后不同模态之间的协同作用。在无监督的特征工程之后,使用softmax回归。我们使用了一种可视化高级脑生物标志物的新方法来分析提取的高级特征。
在第二阶段和第四阶段之间对AD分类进行了评估。基于MR和PET ADNI数据存储库,我们的框架优于最先进的基于SVM的方法和其他深度学习框架。因此,我们认为,所提出的方法可以成为代表多模态神经成像生物标志物的有力手段。