摘要
即将发展为阿尔兹海默病(AD)痴呆人群的静息态功能连接(rs-fMRI)在早期就已经出现异常。这种异常可能有助于AD的临床前研究。本文运用静息态(rs)fMRI数据得到了一个预测大脑年龄的模型,并评估了AD的遗传决定因素和淀粉样蛋白(A)病理学是否会加速大脑老化。使用从多地得到的1340名(年龄在18-94岁)认知未受损的参与者数据,结果表明根据rs-fMRI构建的图的拓扑属性可以预测整个生命周期上的年龄。将预测模型应用于临床前AD,结果表明常染色体显性AD的症状前阶段存在功能性大脑老化加速。这种联系在有明显A病变的个体中更强。
引言
随着年龄的增长,大脑会不断变化。目前并不清楚神经退行性疾病如何影响受衰老影响的脑区和网络。有大量研究证实易受年龄影响的神经系统也受AD和其他神经退行性疾病的影响。有研究预测大脑年龄是否可能是神经退行性疾病的相关生物标志物,因为疾病可能导致衰老偏离正常轨迹,并可以研究影响这些偏离的因素。但是,目前并不清楚大脑加速老化是否先于认知能力下降,以及是否可以在AD的临床前阶段检测到。
AD痴呆的特征是认知下降,无法满足正常生活。有研究表明,AD过程中特有的大脑变化可以在症状出现前二三十年表现出来。从大脑的淀粉样蛋白(A)的积累开始,随后是过度磷酸化tau沉积,代谢脑改变和其他神经变性导致认知和功能改变。静息态功能连接的MRI测量大脑改变几乎与由PET测量的A和tau同步检测到,因此结构MRI检测到萎缩之前几年就已经很明显了。这种功能和生物学上的改变似乎贯穿了AD从临床前期到痴呆阶段的整个发展过程。这些结果表明静息态功能连接的MRI测量对测量临床前AD大脑改变较结构成像更敏感。
AD痴呆发生在大量且不可逆转的脑改变后。从理论上说,一种方法是去阻止这种改变。这需要对AD临床前阶段有所了解。但这很难,并不知道谁会在该疾病的临床显著阶段发展为痴呆。解决该问题的一种方法是研究常染色体显性遗传AD(ADAD),这是一组遗传决定的AD变体。因为这些突变是外显的,所以疾病进展可预测,ADAD是研究AD临床前(即症状前)阶段的理想模型。
由于散发性AD(sAD),不能确定谁会发展为痴呆,但知道一些因素会增加这种风险。有sAD痴呆家族史人群发展为痴呆的概率提高2-4倍。A异常的个体随时间发生脑改变和相关的认知下降。如果他们携带APOE 等位基因或其他已知的遗传风险因素或很强的疾病家族史,患痴呆的风险就会增加。因此,本文测试了处于ADAD临床前阶段或处于sAD临床前风险的个体是否在遗传风险和A状态预测的症状出现之前就表现出大脑老化加速。
本文从不同的地方招募了1624名认知未受损的受试者,年龄从18-94岁。本文基于这些受试者的rs-fMRI数据,研究了一种方法来预测大脑年龄。基于网络的整合和分割测量代表全脑的功能性,并发展为神经网络。简单来说,在一组认知未受损的受试者(年龄18-90岁)上训练该模型。随后在另一组认知未受损的受试者(年龄19-79岁)上验证其泛化性。验证之后,测试临床前ADAD受试者是否较没有突变的对照组表现出功能脑老化加速。在这些相同的个体中,本文还测试了A病理学是否是脑年龄的进一步预测因素。最后,在其父母或其强sAD家族史的无症状受试者中,测试了APOE和(或)A与预测功能脑年龄是否有关。
首先,本文结果表明,ADAD突变携带者(DIAN cohort)的症状前与功能脑老化加速有关。而且,还发现在由PET成像观察到的A显著性沉积的携带者中更强烈。sAD高风险组(PREVENT-AD cohort),APOE和A个体均与明显的大脑老化加速无关,但接近其父母发病年龄时往往表现出大脑老化加速。对独立第三组(一小部分患有MCI(ADNI cohort)或sAD痴呆)的二次分析证实了与认知正常的老年人相比,患者功能性大脑老化加速,表明功能性大脑在sAD的认知受损个体中加速老化,并验证了本文模型对少数与AD相关过程具有敏感性。本文得出结论,具有强遗传决定因素的无症状者表现出与大脑老化加速相关的功能性大脑变化的特征模式。因此,AD的生物学发展特征可以在症状出现前检测到的后期脑老化模式,至少在具有导致AD和显著A病理学的罕见基因突变的个体中是这样。
结果
将多地点数据分为训练集、验证集和测试集
收集1624名认知未受损参与者(年龄18-94岁)的rs-fMRI数据,以构建“脑年龄”预测模型(表1)。本文主要研究AD的临床前阶段,轻度认知障碍(MCI)或AD痴呆患者都排除在外,但本文还是使用了功能预测模型测试了sAD的认知受损个体是否表现出大脑老化加速,而该模型仅建立在认知未受损的个体基础之上。
通过数据处理和质量控制,有1340名认知未受损的个体用于后续分析。773名用于训练集(构建模型),46名用于验证集(测试模型的泛化性并选择最终模型),剩余用于多组测试集(125名DIAN突变携带者和29名无突变携带者,256名具有增加sAD遗传风险的PREVENT-AD个体,96名来自CamCAN,15名认知正常个体)。对所有个体都进行统一预处理,基于量化全脑功能连接的效力选择了26个图形度量,并提取每个受试者的相关性矩阵(表1,图1)。
图1 方法概述。a. 划分训练集、验证集、测试集。b. 对所有受试者的rs-fMRI数据进行预处理,基于Power模版计算得到功能连接,并计算图形度量。图形度量为大脑年龄模型的输入,因此所有度量都有可能。c. 在训练集构建模型时,对图形度量进行排序(根据与老化的相关性,从最相关到最不相关),使用支持向量机和回归树集成算法确定模型输入的重要性顺序。测试神经网络以确定最佳脑年龄模型。测试不同的输入,并应用于训练集,使用验证集验证其泛化性确定最终模型(图2)。d. 该模型用于剩余测试集,本文感兴趣测量是预测年龄差异(PAD)。Mut-:突变非携带者,Mus+:突变携带者,PAD:predicted age difference。
特征排序是为减少最终模型中的特征数量
首先,减少模型的输入数,找到最能预测年龄的图形度量。将训练集输入支持向量机(SVM)和回归树模型中,以确定具有最高权重的图形度量。SVM和系谱树的预测年龄的均方根误差(rmse)分别为16.45和16.08。根据SVM权重和系谱模型重要性的顺序对图形度量排序。根据两个模型的平均排序来决定每个度量的整体重要性,图2a所示。特征排序决定了哪些度量用于神经网络模型的输入,以构建预测大脑年龄模型。
构建大脑年龄模型及提高其泛化性
构建不同神经网络后,选择最佳神经网络体系结构,这些神经网络的复杂度不断增加,输入特征数(5、10、15、20或25个排序图形度量)、隐藏层和隐藏层单元都不同。每个图形度量只作为一次神经网络输入,且在模型迭代中保持不变,使得更复杂的模型始终包括更简单的模型特征。使用rmse的三次测量的平均值来评估每个模型的性能。不同的神经网络都分别用于训练集和验证集(图2b)。为了测试度量排序的相关性,本文还评估了神经网络在随机包含度量时在训练集上的性能(空模型,图2b,右),并将其与基于排序度量构建的模型进行比较(图2b,左)。空模型适用于更简单模型。
为了选择最终用于预测大脑年龄的神经网络模型,本文使用训练集得到不同模型,并在验证集上评估哪个模型具有最好的泛化性(避免过拟合)。一般来说,增加模型复杂度(更多特征和隐藏层/单元)能提高性能(图2b,左)。然而,过度复杂会导致训练接上过拟合,而验证集上欠拟合(图2b,中)。10输入(10个最重要的度量,图2a)和2隐藏层(第一层5个单元,第二层2个单元)时,该模型在验证集上具有最小rmse(平均rmse=13.89)。该模型性能与在测试集上得到的结果相似(平均rmse=13.75)。因此,将该模型用于测试集来测试是否遗传或AD病理学会加速功能性脑老化。
最终大脑年龄模型的性能
本文展示了每个数据集的实际年龄与模型预测年龄间的关系(图2c)。和预期一样,预测年龄与训练集(R2=0.53,p<0.0001;rmse=14.01,mean absolute error [mae]=11.00;图2c 左)和验证集(R2=0.40,p<0.0001;rmse=13.84,mae=11.90;图2c 中)的实际年龄相关。值得注意的是,神经网络模型由于排序特征中使用的简单模型(SVM中的rmse=16.54,系谱树的rmse=16.45)。该模型同样可以预测测试集的大脑年龄(R2=0.36,p<0.0001;rmse=13.24,mae=11.58;图2c 右)。对CamCAN组(代表健康老龄化数据集)使用该模型,结果也是这样(R2=0.26,p<0.001;rmse=16.70,mae=14.32)。
图2 特征排序和神经网络性能
功能性脑年龄和临床前阿尔兹海默病
为了评估临床前AD的功能性脑老化的特征和评估遗传因素/风险和A是否与脑老化加速有关,本文计算了预测的年龄差异或PAD(图1d)。该计算为预测年龄减去实际年龄。由于可能存在地点/组效应,只在组内进行比较。
对测试集(表2)中的DIAN(图3a-d)和PREVENT-AD(图3e,f)受试者进行分析。测试了易患AD的基因,ADAD突变携带者或是sAD家族风险是否与大脑老化加速有关。为得该结果,比较了DIAN中的突变携带和没携带受试者间的PAD,PREVENT-AD中的APOE 携带者和非携带者间的PAD。考虑到模型高估年轻年龄和低估老年年龄的趋势,所有后续都对实际年龄进行控制。该模型高估了DIAN突变携带者的实际年龄(positive PAD=8.19 years),而低估了非携带者的实际年龄(negative PAD=-3.54 years;F1,152=4.88,p=0.03;表3和图3a,b)。总体来说,PREVENT-AD组中的预测年龄高于实际年龄大约5岁(图3e),但是APOE 状态与PAD差异无关(F1,253<1;p=0.49,表3和图3f)。
鉴于A沉积是导致AD痴呆的重要因素,本文还研究了A过量是否与功能性脑老化有关。在DIAN和PREVENT-AD组中测试了A沉积对PAD的影响。通过比较A-positive和A-negative个体来探究A过量对功能性脑老化的影响。本文还通过评估PAD和A过量间的部分相关性来探索A作为连续变量的可能影响。所有分析都控制了实际年龄。
在DIAN中发现(quasi-continous)A对PAD存在一个阶段式效应。A-positive突变携带者较非携带者存在更高的PAD(F1,65=6.9,p=0.02;图3c)。而,A-negative携带者较非携带者的PAD只有少量增加(F1,101=2.73,p=0.10;图3c)。DIAN A-posiive和A-negative突变携带者间并没有显著性差异(F1,111=1.93,p=017;图3c,表3)。部分皮尔森相关性表明,在整个DIAN组中,脑老化加速与增加的纤维状A过量有关(r140=0.18,p=0.04;图3d),而与突变携带者没有相关性(r111=0.14,p=0.14)。
在PREVENT-AD组中,64名进行了A-PET成像(仅在测试集),50名A-negative和14名A-positive(表3)。PAD与A过量无关,无论是A-positive(F1,61<1;p=0.33),还是A过量影响(r61=0.12;p=0.35)。将PET和rs-fMRI间的延迟作为协变量,结果类似(F1,60<1;P=0.36;r61=0.12;p=0.37)。
最后,本文进行事后分析,来测试有sAD症状的个体(MCI和痴呆)的PAD是否高于有sAD风险的无症状个体(APOE 携带者)。该结果表明,认知受损的个体较有sAD风险的个体具有增加的PAD(usingparametric,F1,112=2.85,p=0.047,or non-parametric Mann-Whitney-U=965,p=0.04,one-tailed test)
图3 DIAN和PREVENT-AD中的预测年龄差异
讨论
生物老化的改变在概念上解释为是个体间年龄差异。结合更大和可用数据集,机器学习方法可以提高我们对大脑功能的理解,和根据大脑属性预测健康生命轨迹的能力。以前脑老化模型是根据脑结构特点构建的。在MCI和AD痴呆个体中发现结构脑老化加速。但是,在AD连续性中,功能脑异常早于结构脑改变。本文构建了一个能预测整个生命轨迹(18-94岁)的脑年龄模型。对DIAN组中的ADAD运用该预测模型,发现在临床前ADAD个体中存在明显脑老化加速。这种联系在有A沉积的个体中更为明显。在sAD高危人群中(PREVENT-AD组),APOE 和A都与脑老化加速无关。然而,接近其预期发病年龄的无症状个体往往表现出脑老化加速。与具有风险的无症状个体相比,患有sAD的症状个体表现出脑老化加速(ADNI组)。
本文利用不同组不同地点的参与者构建该模型,并在单独的数据集上证实其泛化性。当优化模型(internal)泛化时,无疑会损伤(external)准确性,external验证步骤是重要优势。虽然样本量不大,但是验证集覆盖了整个生命轨迹。虽然本文没有排除更大的多中心验证组可能导致选择不同的网络架构的可能性,但本文说了模型的rmse在验证集和测试集间非常相似。重要的是测试集并不用于脑老化模型的验证。在证实假设后,模型没有进一步修改,即,假设只用一次最佳模型测试。该方法确保了本文关于症状前AD中大脑老化的结果独立于模型的构建方式。为了评估大脑中的信息整合,本文在应用图形度量时依赖于全脑功能。本文利用特征提取来简化最终模型。与随机选择的图形度量相比,该模型选择10个最重要的图形度量在最终神经网络模型中的误差要小得多。
与结构预测模型相比,使用rs-fMRI数据构建的模型存在更多错误。主要是由于rs-fMRI数据的特点。这种数据噪声化并且比结构数据存在更多动态变化,且易受多地点影响。尽管如此,本文依然尝试利用rs-fMRI数据来构建脑年龄模型,因为这种模式更适合探究AD的临床前阶段。脑年龄模型高估了年轻人年龄和低估了老年人年龄,有的研究者对其模型使用年龄偏倚矫正,但本文并没有调整模型并在PAD分析中将实际年龄作为干扰变量。总之,本文模型的误差高于大多数以前的脑年龄模型,但它来自rs-fMRI数据,没有应用年龄偏差矫正来测试模型的准确性,但该模型具有泛化性。重要的是,适用该问题且敏感。
对AD应用该模型,发现在显性遗传AD的临床前阶段个体表现出功能性脑老化加速。本文预测模型发现ADAD症状前突变携带者(DIAN)的功能性脑年龄超过其实际年龄约10岁(基于在非携带者中的发现)。这就表明,在ADAD的症状前阶段伴随着脑老化加速。A过量对脑老化加速的重要性还不清楚。虽然在DIAN突变携带者未发现A过量间存在联系,但在具有纤维状A患者中,突变携带者和非携带者间的差异更强。因此,在携带者中的脑老化加速并不完全由A沉积导致。ADAD中的突变基因也可能对不完全依赖A沉积的大脑产生终生影响。并不能排除某些A-negative个体实际上是A沉积的可能性,或者存在无法通过PET检测的其他形式的A。明确的是,AD基因突变会影响临床前ADAD的功能性大脑特性。驱动这种大脑老化加速的机制还需要进一步研究。
研究有sAD家族史(PREVENT-AD)的个体的PAD特点时,并未发现APOE 携带者和非携带者间存在差异,A过量也无关系。以前的研究测试了这两个因素对rs-fMRI指标的直接影响,本文测试了这些AD风险因素与rs-fMRI衍生的生物学老化指标间的联系。虽然本文没有发现A与PAD之间的联系,但本文发现EYO与PAD间的联系,即越接近其父母发病年龄的PREVENT-AD参与者往往具有更大的预测脑年龄。
虽然本文重点是疾病的临床前阶段,但本文使用一小部分ADNI患者的rs-fMRI数据进行事后分析。发现有症状的sAD(MCI或痴呆)患者较无症状sAD风险增加的(测试集中的APOE 参与者)患者表现出功能性脑老化加速。
本文存在一些局限,与该模型和组有关。首先,该模型测试假设后,不对其进行更新或调整,导致构建模型时存在一些小错误,从而影响模型的完整性。其次,确定年龄图形度量时,不能排除共线性的影响。此外,虽然本文尽可能增加预测模型的泛化性,但本研究中大多参与者都是Caucasian,强调了增加生命轨迹和AD组多样性的必要性。PREVENT-AD组中,功能性脑年龄超过了实际年龄,而其他类似年龄的地点/组中不存在这种情况。虽然这些结果归因于参与者的家族史,但是很大程度上也反映了地点效应。为了最小化地点效应,本文利用来自各组和地点的数据,在独立的验证集上验证该模型。与DIAN数据相比,PREVENT-AD数据一个明显的局限性就是,我们不知道那些参与者后面会发展为AD痴呆。并没有证据表明APOE 携带者脑老化加速,不是所有携带者都会发展为AD痴呆(临床前阶段),而一些非携带者发展为AD痴呆。
总之,本文使用rs-fMRI图形度量,构建了能预测整个生命轨迹的脑年龄模型。对临床前阶段AD运用该模型预测脑年龄表明ADAD症状前阶段的特征是功能性脑老化加速。临床前sAD是否也存在类似关系,AD脑老化加速的潜在机制是什么,都需要进一步评估。
方法
组和参与者
Dominantly Inherited Alzheimer Network-DIAN。DIAN为多地点纵向研究,招募了18岁及以上的参与者,他们的亲生父母携带导致ADAD的基因突变。本研究使用了DIAN数据中的认知未受损突变携带者和非携带者(280名,18-69岁)的基线数据,临床痴呆评分(CDR)为0。
Pre-symptomatic Evaluation of Experimental or Novel Treatments for Alzheimer’s Disease-PREVENT-AD。该研究为单中心纵向研究,包括399名认知未受损且具有sAD家族史的老年人。纳入标准:1)年龄60;55-59岁,相对于其亲属发病年龄小于15岁的个体。2)认知正常(CDR=0,及MoCA)。3)无重大神经或精神疾病史。本文研究包括了353名年龄在55-84岁的参与者。
Cambridge Centre for Ageing and Neuroscience-CamCAN。该项目使用流行病学、行为学和神经影像数据来表征认知和大脑结构与功能的年龄相关变化,表明健康认知老化的神经认知机制。有648名年龄在18-88岁的个体用于本文研究。
Alzheimer’s Disease Neuroimaging Initiative-ADNI。本文研究包括49名认知未受损的个体。还包括106名有MCI或痴呆的个体用于事后分析。
1000-Functional Connectomes Project(Cambridge site)-FCP-Cambridge。该项目包括来自33个地点的认知未受损个体。本项目使用来自Cambridge的198名年龄在18-30岁的数据。
International Consortium for Brain Mapping-ICBM。该项目包括来自同一地方86名认知未受损年龄在19-95的个体数据。
为了得到本文的脑年龄模型,将数据分为训练集、验证集、测试集,将数据随机分配到训练集,除了遗传状态是可用的(DIAN,PREVENT-AD,ADNI),在这种情况下,只有没有AD遗传倾向的个体用于训练集。剩下的数据用于测试集。ICBM作为独立健康个体组用于测试脑年龄模型的泛化性(验证集)。
数据采集与处理
数据采集各不相同,详情见文章。为了避免地点效应,使用同样的pipeline和处理步骤处理功能像数据。简单来说,时间层矫正和评估刚体头动参数。将T1加权图像线性和非线性标准化得到MNI空间。将功能像配准到结构像后,标准化到MNI空间并重采样为2mm。回归慢时间漂移、平均白质和脑脊液和头动伪影。最后,对fMRI columes进行6mm的高斯核平滑。并进行scurb,scrubing后少于原始数据40%被丢弃。预处理排除了266名受试者。
根据Power和Petersen功能模版提取了272个区域的时间序列,增加了边缘系统的关键区域。将标记为“uncertain”或任何图像中信号较弱或不存在区域排除,最终包括238个区域。对每个受试者,提取238个区域的时间序列,进行皮尔森相关,构建238*238的皮尔森相关矩阵,然后对其进行Fisher’s Z变换。
使用平均回归(MR)减轻与头动相关的噪声。简单来说,对训练集中的每个受试者,对相关性矩阵对角线上的值取平均。得到跨受试者平均值和相关矩阵中每个元素的线性拟合,创建与矩阵每个元素相关的斜率和截距。相关矩阵中的每个元素的最终值等于MR模型拟合与原始相关值间的残差。MR模型仅用训练集数据构建。
使用Brain Connectivity Toolbox从相关矩阵中提取26个量化全脑连接能力的图形度量。在未加权度量的情况下,相关矩阵的阈值为5%连接强度,即只有前5%最强的相关值作为矩阵中的连接。26个度量只有5个使用二进制化矩阵,并在5个度量中,只有一个用于最终模型(即,加权模块系数)。同时计算了小世界度和弹性度量。排除超出训练集平均值5个标准差的图形度量的受试者。训练集排除15名受试者,验证集排除1名,测试集排除8名。
脑年龄模型
不同模型上迭代包括训练集上进行5折交叉验证,并使用独立数据进行第二次验证。将在该验证集上预测年龄误差最小的模型最为最终模型的候选模型。一旦模型确立,即可在测试集上测试本文假设,模型和假设都不进行修改。
首先,为了减少模型输入,本文选取了最能预测年龄的图形度量。为此,将训练集数据输入到SVM和回归树集成模型中,以确定哪些度量与年龄最相关(即权重最高)。SVM是通过减去平均值并除以训练集的标准差来标准化特征。而对于集成模型,使用未标准化的26个度量作为输入。按照SVM权重和集成模型重要性顺序对图形度量进行排序。最后通过取二者的平均排名来确定指标的总体重要性。
随后,本文需要尽可能少的特征来构建一个精确模型。使用训练集来构建神经网络模型并通过验证集评估其准确性。优化神经网络1)使用训练集生成不同模型,每个模型的输入特征数量和网络复杂性不同。2)将每个模型用于验证集来评估哪个具有更好的泛化性。通过减去训练集平均值并除以训练集标准差,对训练集和验证集中的图形度量进行标准化。网络模型有5-25个输入,以5为增量,按照重要性进行输入。同样以5为增量,而以随机顺序输入图形度量来测试空模型。每个图形度量只输入一次,且在迭代过程中保持不变,因此更复杂模型的特征包括简单模型的特征。使用不同数量的隐藏层(1或2)和隐藏层单元数(2、5、7或10)来测试网络架构。使用带贝叶斯正则化反向传播的fitnet函数对训练集进行年龄建模。由验证集上实际年龄与预测年龄间的均方根误差(rmse)来决定模型准确性,rmse越低,精度越高。由于神经网络单元是用随机值初始化的,所以每次测试模型误差时rmse都有变化。因此,最佳模型是由三次迭代平均的最低rmse确定。
预测年龄差异(测试集)的统计分析
为了分析AD临床前阶段的大脑具体年龄,通过预测年龄减去实际年龄,计算DIAN和PREVENT-AD受试者的预测年龄差异。本文对AD的基因的影响感兴趣,这些基因要么是ADAD的原因,要么是sAD风险增加。在测试集上,测试了预测年龄差异1)DIAN中的突变携带者和非携带者,2)PREVENT-AD中的APOE4携带者和非携带者。同样本文想进一步了解无症状个体中的A沉积对功能性脑老化加速的影响。因此,本文通过比较DIAN和PREVENT-AD组中的A-positive和A-negative个体的PAD,且评估PAD和A过量间的相关性。所有分析都控制了实际年龄。使用SPSS进行统计分析,p<0.05。
参考文献:Accelerated functional brain aging in pre-clinical familial Alzheimer’s disease