使用神经成像数据的预测建模有潜力提高我们对精神障碍的神经生物学基础和推定的信息干预的理解。因此,有大量的文献回顾了已发表的研究,机器学习的数学基础,以及使用这些方法的最佳实践。随着我们在心理健康和机器学习方面的知识不断发展,我们的目标是展望和预测我们认为在当前和未来的研究中重要的主题。机器学习中讨论最多的一些话题,如偏倚和公平,脏数据的处理,以及可解释模型,可能对使用基于神经成像的精神病学预测建模的更广泛的社区不太熟悉。与此类似,跨诊断研究和针对基于大脑的精神病学干预特征是现代精神病学的主题,预测模型非常适合解决这些问题。在这项工作中,我们的目标受众是熟悉机器学习基本程序的研究人员,并希望增加他们对该领域正在进行的主题的知识。我们的目标是通过强调和考虑这些主题来加速基于神经成像的精神病学研究预测模型的效用和应用。此外,虽然不是重点,但这些想法可以推广到其他临床神经科学中基于神经成像的预测建模和不同数据类型(例如,数字健康数据)的预测建模。
简介
精神病学的神经成像研究已经对精神疾病的神经机制获得了宝贵的见解。这些研究范围从激活研究到病例控制设计,再到识别行为的个体差异。然而,将我们从这些研究中获得的知识与识别生物标志物进一步应用于治疗干预之间的差距弥合起来仍然是一个挑战。使用神经成像数据的预测建模有可能描述精神疾病的特征,并为临床决策提供信息。越来越多的文献证明了预测建模应用的前景,解释了机器学习的基础数学,并建立了使用神经成像数据的这些方法的最佳实践。更重要的是,已经有许多工作回顾了以往使用机器学习和神经成像数据的心理健康研究。
相反,随着我们对心理健康和机器学习的知识不断发展,我们的目标是展望或预测并提出一系列我们认为在当前和未来的研究中重要的主题。我们首先讨论机器学习中的两个及时的问题,这两个问题对于更广泛的精神神经成像社区来说可能是不熟悉的:偏倚、公平和脏数据。接下来,我们强调解释的水平对于模型实现其全部影响是至关重要的,并且取决于调查的目标。最后,我们展示了预测模型在心理健康研究的两个流行领域的作用:转诊断研究和基于图像的脑标记。这项工作的目标受众是熟悉机器学习的基本程序(如参考文献[16]中介绍的那些程序,而不是深刻理解底层算法和数学)的研究人员,希望增加他们对该领域正在进行的主题和问题的知识。尽管如此,它也可以作为初学者对之前的评论中通常没有深入讨论的主题的介绍,以及对更有经验的人的讨论点。我们的目标是通过强调这些主题来最大化基于神经成像的心理健康研究预测模型的效用和应用。虽然例子植根于神经成像数据,但这些主题和考虑也适用于其他数据形式(例如,数字健康数据)。
第1节:关于数据表示的主题
我们首先讨论在获取数据方面的问题,以及在我们的样本中如何表示受试者群体所产生的问题。使用不代表真实世界感兴趣人群的训练数据被认为是偏倚的来源,这可能导致大脑行为模型在某些人口统计群体中不准确。认识到偏倚的可能性,发现偏倚的来源,并尽量减少偏倚的影响是至关重要的。此外,我们讨论了在这些模型中使用丰富的、现实世界的数据及其相关的复杂性来理解精神障碍的必要性,并考虑了随之而来的问题。
偏倚和公平
在机器学习中,偏倚被定义为基于个人或群体固有和获得的特征而系统地对其产生偏倚的结果,而公平则被定义为不存在偏倚。用于训练模型的数据通常是这种偏差的主要来源。这一原理最近在PULSE AI照片再创造模型中得到了强调;该模特将前总统巴拉克·奥巴马的低分辨率图像变成了白人男性的图像。这些结果是假定的,因为底层算法是根据有限的人口统计数据进行训练的,因此只能对某些种族群体进行准确预测。此外,人们越来越认识到,很大一部分学术研究,包括与精神病学研究相关的研究,是基于西方的、受过教育的、工业化的、富裕的和民主的人口,因为这些参与者是最容易获得的。
同样,对特定亚人群的研究,如精神疾病患者,也受到被扫描对象能力的限制;这些限制可能包括:受试者在扫描期间保持静止的能力,他们的同意能力,或他们在扫描期间参加的能力。因此,研究这种有限的群体偏倚的结果是,在更广泛的感兴趣的人群中,行为的方差代表不足。此外,我们无法研究这些群体,这也导致训练的模型不能代表现实世界的环境和与我们感兴趣的表现型相关的行为变量。基于这些原因,一些人认为机器学习中的偏倚仅仅源于有偏倚的数据,而算法是没有偏倚的。然而,由于偏倚可以来自几乎无限的来源,创建无偏倚的数据可能是不可能的。因此,认为只有数据是有偏倚的这种简单化观点,可以削弱源自机器学习算法本身的偏倚。总的来说,在不承认偏差的情况下,生成和应用预测模型可能导致不适当的过度概括,其中某些群体的代表过多,导致其他群体的代表不足。当从神经成像数据中预测精神病学信息时,这些问题会加剧(图1)。关于精神病理基础神经机制复杂性的研究仍在进行中,其中许多仍为我们所未知。与传统的机器学习应用程序相比,可用的数据很少,而且可能过于代表特定人群。此外,尽管不断进步,我们对大脑行为联系的认识仍然是基础的,因此偏倚的来源可能并不容易被发现。核心症状和潜在的脑回路在不同的精神健康障碍中重叠,不断发展的知识和症状的分组来表征障碍,以及现实世界数据的复杂性都是潜在的偏倚来源(见脏数据)。此外,在症状表现上可能存在重要的跨文化差异,以及更广泛的心理健康观点的不同。因此,针对一个人口统计群体训练的模型可能无法推广到其他人群。不能在不同的人群中进行概括并非天生不利。例如,在功能连通性方面已经报道过性别和年龄的差异,这可能证明用不同的模型来预测相同的表型测量,反映了潜在神经回路的群体差异。模型之间的这种差异不会使任何模型无效。尽管如此,在解释时必须谨慎,并激发新的研究。
图1 随着应用程序复杂性的增加,理解偏差的难度越来越大。
在实践中,针对不同数据集(包括规模和人口分布)的训练算法提供了一种减少偏倚的实用方法。旨在代表更广泛人群的大型开放数据集,如青少年大脑认知发展研究和英国生物银行或来自多个国家的数据集,有能力提供更广泛适用的障碍表示。在较大的、具有代表性的样本中进行测试更有可能选取可泛化的而不是特殊的特征,这导致预测精度膨胀的降低。准确性的下降可能会引入发表偏倚,因为研究人员可能会放弃这一步来提高效应大小。虽然目前还没有针对偏差的解决方案,但重要的是要认识到先天偏差的存在,在研究设计和结果解释时应谨慎。
脏数据
我们在这里所说的脏数据,其特征是由于缺少、不准确、不完整或不一致的数据而导致的复杂性。在与心理健康研究相关的神经成像研究中,即使不是全部,也有许多存在“脏数据”。(表1)然而,具体到预测模型及其后续的临床应用,模型必须工作于现实世界的数据,这是复杂和嘈杂的。虽然脏数据经常被概念化为研究中的一个缺点,但在精神病学中,数据的复杂性和丰富性是固有的,必须仔细考虑,而不是立即消除。只有充分认识到这些因素,预测模型才能实现其临床应用的前景。
表型测量中的主观性是噪声的来源,这种噪声引入了这些测量的内在可变性,以准确地捕获所需的行为。因此,即使是经过专家培训的测试管理员,也存在主观可变性。此外,虽然测量方法可以很好地从健康的个体中区分出病理,但它们在不同的精神疾病之间通常是非特异性的。例如,基于自闭症诊断观察表的成人精神分裂症自闭症诊断存在很高的假阳性率。相关地,当以跨健康和疾病的跨诊断方式进行预测时,这些表型测量提出了进一步的挑战(见跨诊断预测)。目前在精神卫生领域使用的许多测量往往倾向于关注分布的特定尾部(即症状加重),在健康范围内几乎没有传播。但对于跨广泛人群的预测建模,表型测量应该评估整个分布,可能需要更新的端点,如正常行为扩展优缺点评估和数字表型。由于预测模型的有用程度取决于其输入数据的质量,因此这些度量可能不能反映预测模型所需的终点。然而,尽管存在这些固有的问题,这些行为测量在很大程度上作为表型表征的领域标准。事实上,改进复杂行为的量化,而不是改进神经成像数据和预测算法,可能会导致算法性能的最显著提高。因此,表型表征的其他方法正在获得牵引,但在预测研究中仍处于初级阶段。因此,找到预测的最佳终点仍然是一个挑战。
考虑到心理健康方面的潜在生物异质性,患者本身给数据增加了相当大的复杂性,研究人员经常转向较小的、高度同质的队列,以最小化异质性。与此相一致的是,迄今为止精神病学中的大多数神经成像预测模型都依赖于二元分类方法(即,该参与者是否患有疾病?)。然而,精神疾病的共病很常见,估计超过50%。由于这种异质性,简单的分类方法面临着局限性,我们的诊断标签很差。此外,任何精神健康障碍都是偶发性的,分类标签/结果可能根据疾病状态而变化。然而,采用跨诊断和维度方法的神经影像学预测模型,通过检查与症状的常见和独特关联的可泛化性,有可能适当解决共病(见跨诊断预测)。此外,许多患者每天服用药物,可能会改变fMRI检测到的BOLD信号。因此,预测模型可能会被学习药物伪产物而不是疾病背后的神经生物学变化所混淆,限制了它们在神经生物学解释和现实世界前景方面的潜力(例如,将一个人归类为患者,因为他们服用药物是显而易见的)。然而,预测建模的优势在于能够对一个人群(例如,正在服药或有共病的参与者)进行训练,并在另一个人群(例如,未服药的参与者或无共病的患者)中进行测试。适用于两种患者群体的模型很可能不存在上述混淆。
最后,关于数据收集的问题可能会污染数据。人们对大规模联合研究越来越感兴趣,以增加样本量、患者多样性和泛化。尽管努力协调数据,但不一致的存在,并且合并数据集可能是具有挑战性的。与上面类似,提供站点甚至整个研究作为测试数据,并显示一个模型在站点/研究之间普遍化,为可能的不一致提供了强有力的控制。数据缺失是另一个现实世界的数据收集问题。增加每个参与者的数据量(神经成像或表型)可以提高预测模型的准确性。但是,随着数据量的增加,丢失部分数据的可能性也会增加。处理缺失数据的一种常用方法是排除数据缺失的参与者。然而,由于数据收集具有挑战性,而且在临床人群中更容易丢失,这种方法是次优的,可能会给模型带来偏差(参见关于排除特定参与者如何会使模型产生偏差的偏差和公平性)。数据补入或用替换值替换缺失数据的过程,通过保留分析中缺失数据的参与者,从而增加样本量,有很大的希望提高预测性能。数据归罪对数据的结构、缺失的数据模式和机制、机器学习算法和模型性能指标非常敏感,不能盲目地执行。例如,症状较严重的个体更有可能无法通过质量控制。由于许多数据归罪算法不适用于非随机丢失的数据,或者当丢失数据的概率因未知原因而变化时,对这些数据的归罪可能会引入额外的脏和偏倚来源。总而言之,考虑到数据收集问题所造成的复杂性可以增加样本容量,这反过来又可以产生性能更好的模型。
由于数据本身就是脏的,样本量小的过度控制研究最终会高估人们在现实世界中合理预期的效应大小。研究这种肮脏的东西最终将更好地捕捉大脑表型关联的微妙本质。考虑到预测数据中未见过的个体值的最终目标,预测建模提供了一种自然的方法来研究一个模型(例如,大脑表型关联)是否在这些复杂性中得到推广
第2节:解释或预测
模型性质复杂,性能和信息提取不完善。因此,通常在模型的可解释性和预测性能之间存在权衡。具有高预测性能的模型往往像一个黑盒子一样运行,其中输入和输出是可解释的,但模型本身是如何工作的尚不清楚。另一方面,强调特征的可解释性通常以牺牲模型的预测性能为代价,即使特征更多(图2)。该谱上的期望点取决于一个人的目标。对于实际应用(即商业产品),通常需要较高的预测性能。然而,考虑到即使表现最好的基于神经成像的模型显示适度的预测性能,强调可解释性可能是有必要的。
图2 使用不同模型的好处和权衡
在机器学习中,可解释性被定义为人类理解决策原因的程度。对于神经影像学,这一定义可以进一步细化到我们能否理解导致预测值的区域、连接、网络或认知回路?换句话说,对于神经科学的解释来说,仅仅知道大脑特征的组合是不够的。理解这些特征如何与潜在的认知和神经生物学相关可能更有用;因此,为了可解释性而牺牲预测性能(例如使用更简单的线性模型)可能更有利。因为我们还没有完全理解精神疾病中的神经回路中断和异常,一个以可解释性为目标的模型仍然可以告知特定疾病中的神经回路及其中断,即使预测性能不高。然而,无法解释的黑盒模型不符合现实世界的效用,几乎没有可取之处,因为它们既不能用于应用,也不能用于神经生物学的见解。
神经成像数据的高维和噪声特性会使神经生物学解释变得困难,即使从机器学习的角度来看,一个模型是可以解释的。整个大脑的特征(例如功能连接、形态测量或激活模式)是高度相关的,这导致了特征选择算法的问题。例如,使用旨在解释特征之间高相关性的方法(例如,l2惩罚,主成分回归)可能导致具有许多特征的密集模型。同样,通过丢弃部分高度相关的特征来加强稀疏性可能导致模型不稳定。相应地,最小尺度的特征(体素、顶点或连接)是有噪声的,具有较低的测试-再测试可靠性,并且包含与相邻体素共享的信息,这两种情况都会导致不稳定。因此,所选的特征可能会随着使用训练数据的不同迭代而改变,从而损害可解释性。增加密集和不稳定模型可解释性的一个解决方案是在多个摘要级别上检查模型。例如,基于功能连接的模型可以可视化组成模型的单个连接(即边级),同时还可以合计每个大脑区域(即节点级)和规范功能网络(即网络级)的模型权重。在区域或网络上平均特征减少了噪音和冗余信息源的数量,导致对底层解剖结构的更稳定的解释,并支持对大脑的现代系统级解释。脏数据和数据质量也会影响模型在可解释性和预测性能之间的取舍。假设的混淆因素,如头部运动或fMRI数据中的呼吸和心脏信号混淆,通常与症状严重程度相关,因此症状最严重的患者数据质量较差。这些因素是信号还是噪声,这取决于目标。对于一个优先考虑性能的模型,利用这些差异可能会以牺牲神经生物学解释为代价提高预测性能。相比之下,消除这些混淆可能会以牺牲预测性能为代价来改善神经生物学解释。然而,当控制这些或其他协变量时,训练和测试数据必须保持独立。例如,在分离为训练和测试数据之前,简单地从所有数据中回归一个协变量将导致训练和测试数据之间的信息泄漏,并可能提高预测性能。
也许,根据上面的讨论,最可解释的分析是不关注样本外预测的统计推断方法。如果是这样,为什么还要使用预测模型呢?心理健康障碍本质上是复杂的,除了心理健康障碍的神经基质之外,还有无数我们尚未了解的促成因素。答案可能很简单,与许多传统方法相比,样本外测试(即预测)更善于处理这些脏的、真实的数据(参见脏数据和跨诊断预测)。此外,只专注于解释一种特定的理论或机制,对如何预测未来结果的认识很少,这被认为是理解行为的一个弱点。总之,可解释的预测模型可以通过填补解释模型未解释的空白来补充解释模型。
第3节:精神病学应用的主题
最后,我们讨论了预测模型在精神病学的两个热门话题中的作用:转化诊断研究和靶向基于图像的大脑标记。虽然在精神病学中存在着围绕这些主题的重要讨论,但基于神经成像的预测模型为这些主题提供了独特的见解。预测建模自然地有助于以跨诊断的方式分析数据。这些方法通常是根据生物因素(如神经成像数据)而不是症状来对个体进行聚类。但是,如下文所述,还有其他方法可以将这些方法用于跨诊断研究。最后,我们回顾了新兴的文献,强调如何甚至复杂的基于神经成像的预测模型可以成为干预的目标。
转化诊断预测
NIMH研究领域标准的引入有助于在精神病学中普及跨诊断研究的想法。跨诊断研究旨在避开传统的诊断类别,而是按照行为和生物学光谱来代表个体,包括患者和亚临床症状的个体。这种方法可能会给传统的推理方法(例如anova)带来问题,在传统推理方法中,统计能力是由彼此最大限度地分离的同质个体组形成的。然而,为了最好地捕捉一系列症状并复制真实世界的环境(参见脏数据),不应该最大化组之间的分离,而应该最小化。预测模型能很好地处理这类数据,因此,允许我们对精神病理学采取跨诊断方法,该方法重视患者和健康个体内部及之间症状的异质性(图3)。因此,跨诊断模型假定发现了行为背后更普遍的大脑特征,而不是适合特定疾病的特殊特征。
图3 跨诊断预测
目前,最流行的跨诊断预测建模形式旨在解释心理健康的异质性,方法是基于生物学测量(如神经成像数据)将个体聚类到更小的亚组,而不是预先确定的症状集合(例如,来自DSM-5)。这些有前景的方法旨在克服传统分类方法的局限性,即标签较差(参见脏数据)。越来越多的证据表明,这些来自数据的亚组跨越了诊断类别,提供了更好的训练标签,从而改善了对治疗结果的预测。因此,神经影像学数据是这项跨诊断调查的主要数据类型。此外,联合使用标记和非标记数据的半监督学习可能是解释心理健康异质性的一种有前途的方法。尽管如此,它的目标是建立由生物学驱动的诊断也可以被视为一个弱点,因为个体仍然被严格地划分为不同的群体,而不是在一个范围内治疗每个人。群体之间具有重叠边界的模糊聚类可以改善这一弱点,甚至可能允许个体的成员概率随着疾病状态(如抑郁、狂躁)的函数而变化。此外,在治疗患者时,将患者归类为一个明确的群体可能会提供最理想的结果,因为这可能为治疗提供最清晰的蓝图。然而,只有当这些衍生组之间的治疗效果有明显差异时,这才是最佳的。
另一种方法是在来自不同心理健康背景的样本中预测持续表型测量,目的是确定可在传统临床类别中推广的跨诊断网络。这种方法的例子包括:用一种疾病的患者训练一个模型,然后在另一种疾病的患者身上进行测试;在健康人身上训练行为模型,并进行测试,看它是否适用于病理学;或者训练一个跨多个诊断组的症状严重程度模型。这种方法在过去一直不受欢迎,因为对影响的特异性不确定,以及对严格控制的诊断的渴望。例如,当将参与者与精神障碍患者和对照组进行比较时,结果在多大程度上是由患者相对于对照组驱动的尚不清楚。另外,考虑到有不同心理健康背景的患者的混合情况,尚不清楚模型是真正地专门测量所需的表现型,还是由未测量的混杂因素驱动的。然而,如果症状a)从一般症状到亚临床症状再到临床症状,b)可以随着疾病状态的变化而动态增加或减少,c)假定依赖于相同的大脑回路,那么这种方法是必要的。鉴于预测建模在训练一个人群(如健康个体)和测试另一个人群(如患者)方面的优势,这些问题可以通过在不同的诊断类别组合中重复测试和训练,以循序渐进的方式系统地解决。这种方法还消除了将个人归入特定群体的必要性——无论是数据驱动的还是传统派生的。模型本身将捕获与被预测表现型相关的大脑特征。然而,这些研究才刚刚开始,它们的最终用途仍有待确定。
针对模型特点
鉴于基于神经成像的预测模型的分布式、全脑性质以及由此带来的解释挑战(见解释或预测),这些结果如何在临床实践中实施,甚至如何作为干预措施的目标仍然存在问题。在临床实践中使用预测建模最直接的案例是使用病例对照分类模型进行诊断,或使用跨诊断分类模型将个体分为成功可能性最高的干预组。然而,大多数分类模型在真实世界的数据中没有足够的准确性和泛化。因此,展示模型下的大脑特征可以通过潜在的治疗方法进行靶向和调节,为预测模型提供了转化途径。换句话说,目前最有前途的模型可能不是表现最好的模型,而是当前或新的干预措施可以针对的模型。这一领域出现了一系列的作品。
鉴于药理学是大多数精神疾病的一线治疗手段,表明一种特定药物的效果是特定于预测模型的潜在大脑特征的,这既提供了模型的外部验证,也提供了一个潜在的标记来单独比较竞争药物。例如,最好地调节与改善症状相关的大脑特征的药物可能是治疗这些症状的最佳药物。由于预测模型是在个体水平上运行的,这个过程可以帮助在给定一系列潜在药物的情况下,为手头的病人找到最好的药物。事实上,初步数据表明,全脑预测建模方法可以通过药物有效调节。使用持续注意力预测模型(注意力缺陷/多动障碍(ADHD)患者的执行功能下降)表明,单剂量哌醋甲酯(一种通常用于治疗ADHD的兴奋剂药物)特别改变了该模型中的功能连通性。虽然是初步的,但这些结果开启了一个新的研究路线,围绕预测建模和药理学MRI,旨在改善精神症状。
除了药理治疗,预测模型可以直接为新的实验疗法提供信息。例如,神经反馈(通过脑电图、fNIRS或fMRI)是一种神经治疗方法,个体学会修改其大脑功能以优化症状、认知或行为。神经反馈的一个挑战是找到一组正确的大脑特征供个体学习控制。假设,这些特性应该与需要改进的行为密切相关,或者可能更好地预测这些行为,这样对这些特性施加控制将导致行为的改变。越来越多的人认识到,许多症状或行为不能局限于单个区域,而是依赖于分布的区域阵列的协调活动。因此,试点研究开始使用复杂的全脑模型,在独立的参与者样本上训练,作为神经反馈的目标。然而,这种有前途的方法只在少数研究中得到应用,其疗效尚不清楚。最后,与神经反馈一样,基于神经成像的预测模型已被用于通过经颅磁刺激(TMS)来确定目标部位。基于规范数据库的连接模型已被用于TMS的个体化靶点,产生了治疗反应的显著提高。此外,研究人员对接受经颅磁刺激治疗重度抑郁症的独立个体样本进行了预测建模,以确定不同的经颅磁刺激靶点,这些靶点与焦虑症和焦虑性抑郁症状的改善相关。这些结果强调了使用全脑预测建模方法的潜力,基于症状表现和/或个体神经解剖学来个性化神经调节靶点,以及确定新的TMS靶点用于临床应用。
总的来说,有足够的证据表明,有各种有前途的方法来实现目标模型特征,所有这些方法都有很大的潜力来改进现有的治疗方法,并促进新的治疗方法的发展。
结论
基于神经成像的预测模型的使用在精神病学研究中越来越普遍。虽然这些都是分析神经成像数据的强大工具,但机器学习和精神病学领域都在继续发展,为当前的最佳实践增加了进一步的复杂性。在这项工作中,我们详细介绍了我们认为在当前和未来的研究中很重要的主题,但在心理健康研究中使用基于神经成像的预测建模的更广泛的社区可能不太熟悉的主题。此外,我们预计这些想法中的许多将推广到神经疾病背景下基于神经成像的预测建模,以及在精神病学中使用其他数据类型的预测建模。仔细考虑机器学习和精神病学中的这些新兴主题将有助于研究人员更好地应用基于神经成像的预测模型,推动我们对心理健康的理解。
参考文献:Predicting the future of neuroimaging predictive models in mental health