自闭症是一种异质性的神经发育状况,基于功能磁共振成像的研究已经有助于深化我们对大脑网络活动影响的理解。我们回顾了使用功能连接性和症状的预测建模如何帮助揭示这种病状的关键见解。我们讨论了不同的预测框架如何进一步提高我们对于潜在复杂自闭症症状的基于大脑特征的理解,并考虑了预测模型如何在临床环境中使用。在整个过程中,我们强调了研究解释的方面,如数据衰减和抽样偏差,在讨论这种病状的背景下需要考虑。最后,我们提出了自闭症预测建模的令人鼓舞的未来方向。本文发表在Biological Psychiatry杂志。
介绍:
自闭症谱系障碍(以下简称自闭症)是一种神经发育状况,以社交沟通和互动困难以及受限的重复行为和非典型的感官反应为特征。针对自闭症特征的经验验证治疗方法有限,尤其是在医学干预方面。改善我们对这种病状潜在的基于大脑特征的理解的方法,最终可以通过确定针对个体干预的目标来指导临床研究和实践。
功能磁共振成像(fMRI)连接性分析已经产生了定位支持特定行为的大脑回路的工具。这些方法可以用来推断通过预测模型验证的个体水平的大脑-行为关系。基于预测的方法提供了一个统计严谨的框架(通过使用单独的数据进行模型训练和测试),用于研究个体差异,特别是在神经发育状况中。在这里,我们主张在自闭症中,模型在两个广泛领域具有实用价值:
在考虑到这两个领域的基础上,我们回顾了自闭症预测建模文献,重点关注使用MRI功能连接数据的研究。根据自闭症的终身特性,我们考虑了涵盖广泛参与者年龄范围的研究(6个月至65岁)。在详细介绍自闭症特异性研究设计注意事项之后,我们讨论了三种预测建模框架:病例对照分类、维度预测和亚型应用(图1B)。在每个部分中,我们强调基于大脑的见解,并确定我们期望预测模型产生临床效用的领域。因为基于大脑的见解是临床有用模型的基础(反之亦然),我们在整个文本中交织讨论它们的相互依赖性。本文的目的是强调感兴趣的关键论文,并讨论概念性考虑,使自闭症预测模型更具实用价值。我们的目标不是对自闭症预测研究中的机器学习方法/算法进行详尽、系统的回顾;请参阅(引文9-11)中的综合评论以了解近期进展的总结。
针对自闭症的预测建模特定注意事项
预测模型提供生物学洞察力和潜在的临床应用价值
图1. 自闭症预测建模应用。
(A)基于预测的方法可以在自闭症研究中满足两个需求:一方面,它们可以帮助梳理导致自闭症症状的复杂脑基础特征(生物学洞见),另一方面,也可用于潜在地为为自闭症患者提供护理相关的决策(临床效用)。由于基于脑基础特征的洞见和临床有用的模型是相互依存的,它们的讨论贯穿于本文中。
(B)我们在本文中讨论了使用功能连接数据进行预测建模的三个框架:病例-对照分类、维度预测和亚型分型。Dim.代表维度。
在本文范围内,预测建模包括使用统计学方法将MRI功能连接度量与表型测量(诊断状态/症状)相关联的方法(请参阅补充材料以获取有关预测建模/机器学习的背景知识)。这些方法将数据集分为训练和测试样本,然后应用交叉验证或使用外部数据来测试模型。在这里,我们强调通过预测建模选择的功能特征(连接和网络)以及它们提供的潜在生物学见解/临床相关性。例如,考虑一个模型,该模型认为前顶叶区域的连接对于社交注意力很重要。这样的模型通过定位回路为复杂表型提供了生物学洞察力。这个模型未来可能在临床上具有实用价值,通过预测哪些个体最有可能对行为干预产生反应。
平衡大样本尺寸,关注数据衰减和站点效应
在自闭症参与者和神经典型参与者的预测建模研究中,已经证明需要大样本来获得可重复的结果。在自闭症领域,使用大型数据集通常意味着使用来自Autism Brain Imaging Data Exchange(ABIDE)和/或欧洲自闭症干预多中心研究新药开发(EU-AIMS)的数据。这些样本的一个问题是数据衰减,与敏感性和特异性有关(与病例对照分类研究相关的概念;敏感性是算法正确分类确实患有自闭症的个体的能力;特异性是算法正确分类没有自闭症症状的神经典型个体的能力)。数据衰减意味着随着样本中进行的统计检验次数的增加,样本揭示新的、统计学上显著的关系(如敏感性/特异性)的能力会随着时间的推移而减少。对数据衰减的关注并非仅限于自闭症研究;在使用阿尔茨海默病神经影像倡议(ADNI)数据集的研究中也注意到了类似的问题。
此外,ABIDE 和 EU-AIMS 包含来自多个站点的数据。必须确保站点效应不会混淆结果;ComBat 是研究人员用来最小化站点效应的一种方法。为了进一步减轻对数据衰减和站点效应的担忧,可以使用其他样本进一步验证预测模型,就像对其他表型所做的那样。使用多个数据集以确保结果在样本间保持一致是提高结果普适性的一种方法。我们提及这些问题以提高认识;我们强烈主张公开共享数据集。
混杂因素,扫描环境的耐受性以及预测建模的后果
混杂因素是与模型中的自变量和因变量都相关的变量,它们可以驱动伪相关的统计关系并导致错误的结论。扫描过程中的头部运动是功能连接测量中一个典型的混杂因素,并且在自闭症领域也引起了关注。执行全局信号回归可以减少运动伪像,并在自闭症患者和神经典型个体中加强脑-行为关系。实施全局信号回归并非没有争议;关于全局信号回归如何改变功能相关结构以及影响组间比较,请参阅完整讨论。
尽管尚无共识方法消除头部运动的影响,但在建模过程中,头部运动数据较高的个体通常会被排除在外。这种做法影响了预测建模研究中包括的参与者。与此相关的是,能够忍受 fMRI 扫描并产生低运动数据的自闭症患者往往语言/认知障碍较少,智商较高。在考虑将预测建模应用于临床环境的可行性时,必须牢记这些事实。为了使自闭症患者满足数据质量标准的多样性,通常通过缩短功能扫描(小于5分钟)和消除任务扫描来缩短成像方案的长度。权衡之处在于所获得数据的范围有限。更少、更短的扫描会导致功能连接组的可靠性降低,静息态数据往往产生较差的预测性能(在神经典型个体中)。确切解决混杂因素的方法取决于分析目标,但我们建议读者参考关于英国生物库中的混杂因素(以及解决方法)的研究。
为提高功能连接组的可靠性,我们建议收集更多扫描数据(任务和静息数据)和/或使用提高扫描数据质量的方法 [逐帧集成实时 MRI 监测,模拟扫描方案,Inscapes]。
合并症和表型重叠
自闭症患者往往伴有较高的共发症率,包括注意缺陷/多动障碍(ADHD)、焦虑障碍和智力障碍。合并症给研究人员带来了挑战,包括如何考虑不同诊断之间的共变关系。关联分析方法(如维度和分型方法)是一种解决方案。例如,可以将有和无焦虑症状的个体分为预先确定的亚型,然后为每个组生成单独的维度模型来预测自闭症症状。还有一些方法允许参与者在不同程度上表现出亚型特征(多维分型法),也在解析异质性方面取得了成功。
性别失衡及其在自闭症预测建模中的性别特异性影响
在自闭症的预测建模中,性别因素具有重要作用。据估计,自闭症诊断中男女比例失衡为3:1,且自闭症的神经生物学存在性别差异。男性和女性往往表现出不同的症状,这通常导致女性的诊断被遗漏。此外,在神经典型个体中,预测流体智力的模型在为每个性别单独生成时准确性较高,且模型背后的功能特征具有性别特异性。性别特异性与神经典型个体中使用连接数据预测性别的高准确度相一致。因此,研究人员应在可行的情况下包括相等数量的男性和女性进行分析,或建立性别特异性模型。
接下来,我们将在回顾三种不同方法:病例对照分类、维度表型预测和亚型特异性预测时,强调所有这些因素如何影响自闭症预测建模的生物学和临床效用。
病例对照分类:关注诊断的理由
病例对照分类研究占据了自闭症预测文献的大部分(表1)。这些研究的优势之一是它们的明确性:参与者要么被正确分类,要么没有。另一个优势是相较于维度和亚型预测研究,它们的数量较多,使得可以观察到广泛的趋势。接下来,我们将通过发展视角强调其中一些研究的生物学和临床效用,范围从婴儿期到老年(65岁以上)。
在整个生命周期中,自闭症分类所涉及的基于大脑的特征不同
自闭症是一种终身病症,其症状会随着个体一生的变化而变化。这种发展变化反映在区分自闭症患者和典型发展参与者的神经生物学相关性上。例如,使用高斯核支持向量机和来自ABIDE的静息态数据,研究发现在5岁到15岁的患者中,与自闭症状态最具区分度的功能特征(涉及顶叶和背外侧前额叶皮质的连接)不同于15岁到30岁的患者中最具区分度的功能特征(涉及更多的背外侧前额叶皮质和颞叶皮质的连接)。在整个生命周期中,这种发展效应普遍存在:在不同生命周期阶段,区分自闭症病例与典型发展参与者的功能网络组织似乎有所不同。这种差异也适用于使用T1加权结构MRI数据的病例对照研究,并与大脑成熟的动态性相一致。
根据这些证据,我们得出两个结论。首先,不同年龄段之间无法泛化的预测模型不应被视为模型的失败。为了最大限度地提高模型的实用性,可能需要针对自闭症病例对照分类制定特定年龄段的模型。这一观察结果与在儿童(11-18岁)中进行的纵向研究相一致,表明自闭症患者和无自闭症人群的功能网络变化速度不同。其次,鉴于越来越多的证据,我们可以做出一些总体观察并提出新的假设进行测试。例如,皮层区域的发育轨迹往往遵循分层的感觉-联合轴线。单模态感觉区在儿童时期成熟,而异质模态联合区在青少年和青年时期成熟。在自闭症中观察到了这种分层的破坏,这使得在分类背景下考虑这一轴线变得非常有趣。也许沿着这个功能轴线的发育偏差可以更准确地在有自闭症和无自闭症的个体之间进行划分?未来,研究人员可以在大型数据集中研究这一假设,同时要牢记自闭症特异性预测建模问题(特别是数据衰减;大多数最近的病例对照研究已在ABIDE中进行)(表1)。
临床实用性:走向早期诊断
临床研究的重要方向是在早期发展阶段通过客观生物标志物识别患有自闭症的个体(如图2所示),以便在支持服务最有效的时候提供帮助。准确预测功能连接数据在5岁以下个体中的病例和对照状态已被证实。在研究更年轻年龄段时,Emerson等人(参考文献)使用6个月大的婴儿在睡眠时的功能连接数据,发现支持向量机可以预测他们在24个月时的自闭症状况(如图3A所示)。正确分类的网络模型复杂(如图3B所示),包括分布在大脑各处的短程和长程连接,许多连接集中在顶叶皮质。成功模型的神经解剖复杂性将在本文中持续讨论。
证据显示,在婴儿时期预测自闭症诊断是有希望的,并为更早期的影像检查奠定了基础。遗传研究发现,与自闭症特异性相关的转录途径在胎儿期可能已经发生改变。由于胎儿影像学的出现,未来或可生成预测模型以评估孕期自闭症的可能性,从而使支持服务在出生时就可以提供(关于这种情况的伦理问题以及预测建模的一般伦理问题,请参见补充材料)。
维度预测:考虑复杂症状体征
在许多精神病状况中,包括自闭症在内的症状都存在于一个连续体上,而适应性行为与异常行为之间的界限往往并不明确。从生物学角度来看,维度方法可以用来描述特定行为领域中的功能,并确定大脑连接模式的基本规律。然后,经过干预后,可以在临床上监测涉及的功能性回路。尽管有这些优势,但维度预测研究却寥寥无几(表2)。在下文中,我们将重点介绍两个领域的感兴趣工作:症状预测和适应功能中认知表现的预测。
表1. 典型的自闭症病例-对照分类研究
AAL,自动解剖标记;ABIDE,自闭症脑影像数据交换;ADOS,自闭症诊断观察量表;CRF,条件随机森林;CV,交叉验证;dFC,动态功能连接;FC,功能连接;GT,图论;HO,哈佛-牛津图谱;HR,高风险;IBIS,婴儿脑影像研究;LRC,逻辑回归分类器;NN,神经网络;NT,神经典型;RF,随机森林;ROI,感兴趣区域;SVM,支持向量机。
预测自闭症症状
图2. 自闭症干预窗口
该示意图说明了正确识别患有自闭症的假设个体并根据该信息提供适当支持服务的临床实用性。深色线表示患有自闭症的个体及其症状影响(广义上,在y轴上)随时间推移如果没有获得支持服务。如果在儿童和青少年时期早期诊断出自闭症,可以为个体及其护理者分配资源(分别为粉色和蓝色虚线)。如果正确的诊断和干预延迟,尽管它们可能效果较差,但仍可以在以后的生活中利用资源。绿色阴影表示正确诊断和资源分配的实用性;绿色越深,个体对支持服务的反应可能越强烈。
我们强调这是一个假设性的例子;症状可能不会从儿童期到青少年期增加,而且晚期诊断的个体总体上可能不一定有更严重的症状。实际上,症状的轨迹因个体而异,且在生命周期的不同阶段也可能有所不同。 Plitt等人进行的研究是首批展示维度症状预测的工作之一。在一个青少年和年轻成人的样本中,作者使用先验网络(默认模式网络[DMN]、显著性网络和前额顶叶网络)的静息态连接数据,通过岭回归来预测3年后的社交行为变化。这一早期报告引起了人们的兴趣,因为预测方法可以用来探讨与复杂症状相关的功能连接。
此后的研究使用了来自ABIDE的更大样本,以寻找症状的整个大脑相关性。例如,Lake等人利用静息态数据和基于连接组的预测建模,生成了预测社交反应量表(SRS)得分的网络模型,以及单独预测自闭症诊断观察量表得分的模型。虽然两个模型有一些共同区域(小脑和皮层下区域,这些区域越来越被认为在认知和社交过程中很重要),但它们基本上是不同的。检测到不同功能回路的事实令人鼓舞:尽管SRS和自闭症诊断观察量表得分都在测量社交能力,但它们之间的相关性只有一定程度,这表明使用预测方法可以检测到大脑和表型之间可能存在的微妙关系。
一旦建立了模型,就可以将其应用于不同的数据集来测试泛化能力,并确定不同人群或表型是否具有共享的神经生物学相关性。例如,Lake等人将用于预测具有自闭症个体中的SRS得分的基于连接组的预测建模网络(在ABIDE中生成)应用于一个独立的具有ADHD的儿童样本(ADHD-200),并发现该模型预测了注意力不足症状。这值得注意,因为自闭症和ADHD的高度共生以及模型中存在的大脑区域(小脑、皮层下区域和DMN),这些区域被认为对内部和外部注意力的某些方面具有重要的调节作用。DMN还被发现在理论心理和进行社交推断方面发挥重要作用,这些过程在自闭症中通常是非典型的。
通过结合两个网络模型(一个用于预测沟通,另一个用于预测社交互动能力),DMN也被认为是预测自闭症社交情感的关键。这些结果表明,尽管自闭症的症状复杂,但有可能在研究之间找到神经生物学的共性。
预测与适应功能相关的表型
图3. 使用婴儿大脑功能连接测量进行病例-对照预测是可能的
(A)使用6个月大的影像数据对24个月大的儿童进行分类。分类准确率为96.6%。
(B)功能连接的事后可视化及其与不同表型量表之间的关系。红线表示自闭症组中呈现较负连接的连接,而蓝线表示呈现较正连接的连接。
ASD,自闭症谱系障碍;CSBS,沟通和象征行为量表;MSEL,穆伦早期学习量表;RBS-R,重复行为量表-修订版。
生成适应功能维度预测模型是临床研究的一个方向。为此,Rohr等人使用ABIDE的静息态数据和基于连接组的预测建模,生成了预测适应功能组成部分的网络模型,即抵抗不适当行为冲动的能力。他们的行为抑制模型包括分布式的整个大脑功能特征,主要在默认模式、体感运动、视觉和小脑区域之间,这与其他研究相一致。这些发现表明,确定相关标志物并在行为干预后跟踪测量改善的可行性。
监测适应功能对干预的反应与预测未来个体结果密切相关。Plitt等人的研究表明,这对自闭症患者是可能的,因为整体适应功能的变化可以在成像后的3年内被预测。规范建模方法已经在使用结构和功能MRI数据的自闭症大脑行为关系的异质性中证明是有用的;未来的研究可以将这些模型应用于产生纵向表型预测。未来的研究还可以采用多维度方法来预测不同表型的组合,以及纳入功能连接动力学的测量。
表2. 使用功能连接数据的维度研究
ABAS,适应行为评估系统;ABIDE,自闭症脑影像数据交换;ADHD,注意缺陷/多动障碍;ADHD-RS,ADHD评定量表;ADI-R,自闭症诊断访谈修订版;ADOS,自闭症诊断观察量表;BRIEF,执行功能行为评定量表;CCA,典型相关分析;CPM,基于连接组的预测建模;CV,交叉验证;dFC,动态功能连接;dim.,维度;DMN,默认模式网络;FC,功能连接;FPN,前额顶叶网络;LEAP,欧洲自闭症干预多中心研究开发新药物的纵向欧洲自闭症项目;NT,神经典型;ROI,感兴趣区域;SN,突显网络;SRS,社会反应性量表;SVR,支持向量回归。 a.在此,我们报告了用于大部分SRS分析(SRS总分以及以下子量表:沟通、动机和举止)的样本大小。预测SRS认知和意识子量表的样本大小为n = 180 NT和80自闭症;预测ADOS模块3和4的样本大小分别为n = 79自闭症和n = 58自闭症。 b.在SRS分析中,样本中约70%为男性;在ADOS分析中,样本中约85%为男性。ADHD-200样本中未报告性别。 c.我们报告了用于ADOS维度预测分析的样本大小。总共有27名自闭症参与者参与了ADI-R维度预测分析。 d.在LEAP队列中,共有125名自闭症个体和78名对照受试者参与了Short Sensory Profile子量表分析;人口统计特征与样本其他部分大致相似。
亚型分类:通过寻找共性简化复杂性
人们一直对确定自闭症亚型感兴趣。这项工作旨在识别同质性群体,以探讨每个亚群的生物学基础,为潜在干预提供更具体的信息。自闭症中存在不同群集的观点得到了多种模式的结果支持,包括结构MRI、脑电图、眼动追踪以及症状水平测量。
初步的连接组亚型分类努力
图4. 自闭症症状的维度预测
(A) 基于训练数据构建预测自闭症症状的模型,然后在同一数据集中留出的测试数据上进行验证。此过程中预测的症状得分显示在y轴上;观察到的症状得分显示在x轴上。
(B) 预测功能特征的事后可视化(数据在节点级别进行汇总,并根据程度进行着色)。
(C) 将从自闭症症状中得到的预测模型应用于外部数据集,以预测幼儿注意缺陷/多动障碍(ADHD)症状。
ADOS,自闭症诊断观察量表;BA,布罗德曼区;ROI,感兴趣区域[如(33)中定义];SRS,社会反应性量表。
基于功能连接组聚类的亚型分类方法表明,自闭症至少有两到三种亚型。与维度模型确定的分布式大脑特征一致,亚型分类方法表明,没有特定的大脑区域可以区分亚型;区分亚群的大脑特征复杂且空间分布。然而,DMN和前额顶叶网络(在维度模型中受到牵连)似乎最为稳定地参与到区分亚型中。迄今为止,大多数研究都在ABIDE中进行,且倾向于关注男性。未来的工作应评估在不同数据集中亚型的可靠性/泛化性,包括更多女性参与者,并使用静息和任务数据的组合。
虽然大多数研究集中在识别不重叠的亚型,但允许参与者以不同程度表现不同亚型的精细分析方法——维度亚型分类——开始被报道,并为这一领域带来了热情。
在基于连接组的亚型被确定后,通常通过确定亚群间的其他测量(通常是症状信息)是否不同来对其进行验证。例如,Easson等人将k-均值聚类应用于ABIDE的静息态功能连接矩阵,并观察到两个明显不同的亚型(图5)。亚型包括自闭症患者和非自闭症患者的混合。两种亚型在连接性方面都表现出广泛的差异。第一亚型的标志特征是DMN与扣带背部、体感运动和视觉网络之间的连接更强。第二亚型表现出更强的网络内连接。此外,每个亚型在大脑行为关系方面都表现出差异。也就是说,每个亚型中独特的连接特征以不同方式预测SRS和自闭症诊断观察量表得分。
朝向大脑行为预测模型的亚型分类
Easson等人确定的亚型表现出不同的大脑行为关系,暗示了将大脑行为预测模型进行亚型分类的可能性。关键在于,这些亚型不仅基于大脑或表型,还基于它们之间的关系,这使它们与假设单一大脑表型预测模型在整个样本中是充分的工作相区别。基于模型的亚型分类揭示的分组可能有助于发现跨越诊断和人口统计边界的个体群体。除了数据驱动的方法,假设驱动的基于模型的亚型也可能证明是有用的,无论是基于症状特征还是其他易于测量的变量,如生物性别。总的来说,通过基于模型的亚型分类得到的大脑特征将有助于揭示自闭症的生物学基础。不同亚型之间的表型和人口统计特征可能有助于对个体进行分级,以便更好地进行护理管理。
局限性
表3:使用功能连接数据的亚型研究
ABIDE,自闭症脑影像数据交换;ADHD,注意缺陷/多动障碍;ADI-R,自闭症诊断访谈修订版;ADOS,自闭症诊断观察量表;DAN,背侧注意网络;DMN,默认模式网络;FC,功能连接;GENDAAR,性别探索神经遗传学和发展以推进自闭症研究;LFA,潜在因子分析;NT,神经典型;OCD,强迫症;PLS,偏最小二乘法;POND,安大略省神经发育障碍数据集;ROI,感兴趣区域;RRB,限制性重复行为;SM,体感运动网络;SN,显著性网络;SRS,社会反应性量表;SVM,支持向量机;VN,视觉网络。
a.基于与最初用于识别亚型的特征不同的领域的验证报告。
b.来自ABIDE II 1 GENDAAR的NT样本(n = 348)用于生成自闭症个体的FC z分数。
c.LFA使用基于潜在狄利克雷分配的贝叶斯模型。
d.303个NT来自ADHD-200,349个NT来自ABIDE I。
关于功能连接的可靠性,人们表示了担忧。有研究表明,每位参与者的数据量足够大(每次扫描15分钟,允许更可靠地估计连接),自闭症患者与神经典型个体之间的连接组变得相当相似。本文所报道的大多数研究仅包括5分钟的扫描。可以进行更多研究,以确定增加数据量如何影响预测模型的准确性和可靠性。除了可靠性之外,功能连接的确切生物学性质仍然难以捉摸,这是预测建模研究必须承认的问题。
病例对照研究的一个问题是将个体归为一个类别。自闭症患者具有独特的症状特征和复杂的症状神经生物学相关性。分类诊断使得很难确定表型的特定方面如何得到潜在大脑回路的支持。此外,预测诊断在临床上是不够的;需要更多的个体层面信息来优化护理。
关于精神病学中的维度研究,人们提出了一些担忧。例如,自闭症患者的严重沟通困难可能是由于与支持神经典型个体沟通能力的过程不同的神经生物学过程造成的;假设所有个体都可以在给定表型的单一维度上定位可能是不正确的。某些维度指数(SRS)依赖于父母/自我报告的测量;这些测量可能与所关注的症状或行为结构关系较弱。可能维度方法无法用于建模所有的大脑-表型关系,而且计算限制可能由于维度的诅咒而限制了维度方法的实用性。
在某些精神病症状中,亚型难以在数据集之间复制,并且最近的一项研究报告了无法在自闭症中定义可靠的亚群。测试自闭症亚型的可重复性和普适性至关重要。此外,亚型的解释可能受到未测量的、样本依赖的协变量的复杂化。收集精确和全面的人口统计/临床数据可用于纠正混杂因素,尽管隐藏的混杂因素可能仍然存在。
未来方向
图5:自闭症连接组中的亚型
(A) Easson等人(109)确定了两种亚型。每种亚型都包括有自闭症和无自闭症的个体。这些亚型在功能连接模式上存在差异;每个亚型的平均矩阵如图所示。 (B) 多变量脑-行为分析(偏最小二乘法回归)表明,亚型在自闭症关键行为测量集合中表现出独特的脑-行为关系。ADOS,自闭症诊断观察量表;CN,小脑网络;Comm.,沟通;CON,扣带楔状网络;DMN,默认模式网络;FPN,前额顶叶网络;ON,枕叶网络;RRB,限制性重复行为;SA,社交情感;SMN,感觉运动网络;SRS,社会反应性量表。
我们回顾了预测建模框架如何为自闭症的神经生物学相关性以及潜在的临床应用提供见解。目前,病例对照分类研究占据了大部分文献,使得可以观察到发展趋势。由于自闭症患者的异质性,需要进行更多的维度和亚型预测研究。这三种预测框架都可能受到我们在这里讨论的自闭症特异性建模考虑因素的影响。分类方法有朝一日可能利用客观的生物学数据进行早期诊断(甚至可能是在子宫内)。同时,维度和亚型研究可能深化我们对自闭症背后基于大脑的特征的理解,并发现通过基于影像的预后和干预反应监测来改善管理的方法。
与自闭症症状的复杂性一致,基于大脑的预测模型也是复杂的,揭示了支持特定行为的大规模网络。为了帮助解释和转化,继续收集大量数据至关重要。理想情况下,这些数据集将是广泛的(大量具有多样性的有无自闭症的个体)和深入的(包括许多数据模态)。通过广泛而深入的方法获得的生物学洞察的一个例子是确定特定的遗传标志是否作为不同连接表型的基础,将基因与复杂的大脑活动模式以及自闭症行为表型相联系的优雅工作已经开始出现。深入、多模态的关注可能为功能性磁共振成像(fMRI)和功能性近红外光谱法(fNIRS)或脑电图(EEG)提供共同的标志,提供可在临床上使用的互补信息(比fMRI更便宜且更易于某些人接受)。
密集扫描方法——对同一参与者进行多次成像——在神经典型成人中已被证明是有用的。结合创新的任务范式,如观看电影,密集扫描可以在自然社交环境下提供大量的个体层面数据。这样的方法可以帮助自闭症研究者更好地解析参与者特异性的轨迹。理想情况下,密集扫描计划将包括许多个体,以最大限度地发现个体差异。
我们并不认为未来的道路将会容易。尽管期望很高,但迄今为止,功能性磁共振成像(fMRI)在很大程度上未能造福自闭症患者。除了产生可靠的fMRI结果的困难之外,还有许多研究发现难以转化的环节。研究和临床优先事项并不总是一致,因此保持研究人员、临床医生、自闭症患者及其护理人员之间的畅通渠道至关重要。展望未来,我们预见预测建模方法将继续助力理解自闭症复杂的神经生物学。
总结:
本文专注于自闭症的预测方法,这些方法依赖于有监督算法。有监督方法(其中数据标签已知)可用于利用现有数据预测分类变量(例如病例对照研究中的自闭症诊断)或使用回归预测连续变量(维度研究中的自闭症相关表型)。有监督的一个优点是使用先前研究中预生成的先验信息。这些先验信息可以帮助确保模型不太可能过拟合数据集,因为增加了(有利的)偏差并减少了方差(即偏差-方差权衡)。缺点是这些先验信息可能不适合数据集,你可能会错过数据集中一些独特且有用的信息,导致模型欠拟合,性能不佳。
回到无监督方法,这些方法更适合解释性分析。然而,它们仍然可以作为预测框架的一部分。两种主要类型的无监督算法是聚类和关联。聚类类似于分类,因为它倾向于产生分类输出(自闭症亚型),而关联类似于回归(新的脑变异维度),因为它产生一个维度输出,沿着这个输出关系不断变化。无监督模型可以从缺乏偏见中受益,因为它们使用比有监督方法更不严格的先验信息,并且可以在数据集中发现以前未知的关系。然而,缺乏偏见也可能导致在不同数据集中估计模型参数的方差增加,从而导致过拟合模型,捕获比信号更多的噪声。关于fMRI中有监督和无监督学习相关问题的更深入讨论,请参阅Khosla等人的研究。
在模型选择中,另一个重要因素是模型复杂度。较简单的模型可能会错过数据中的复杂关系,但可以得到更具解释性的参数。在获取生物学洞察的背景下,这可能很重要。另一方面,如果底层生物学关系不那么重要,而希望得到一个性能尽可能好的模型(例如,准确诊断自闭症状态),可以选择一个更复杂的算法。复杂算法由于具有捕捉复杂模式的能力,因此在未见过的数据上表现更好,但可能会阻碍解释性(参见Bzdok等人的图1)。模型的复杂度还会影响泛化性能,因为复杂模型由于可以优化的参数数量增加,更容易过拟合数据集。在功能性神经影像学预测建模中选择算法时,复杂性和解释性的平衡是一个关键的考虑因素。