基于功能连接的认知机器学习预测模型:特征权重可靠吗?

文章来源于微信公众号(茗创科技),欢迎有兴趣的朋友搜索关注。


利用机器学习方法,可以从个人的功能性大脑连接中预测认知表现。但是预测模型在支持认知的神经生物学加工方面仍存在争议,目前的见解也比较有限。特征选择和特征权重估计要具有可靠性,以确保能够可靠地识别具有高预测效用的重要连接和环路。本研究考察了由静息态功能连接网络构建的各种认知表现预测模型的特征权重重测信度(样本量n=400)尽管获得了适度的预测精度(r=0.2-0.4),但是研究者发现特征权重的可靠性在所有预测模型中普遍较差(ICC<0.3),显著低于明显的生物属性(如性别)的预测模型(ICC≈0.5)。当采用更大的样本容量(n=800)、Haufe变换、非稀疏特征选择/正则化和更小的特征空间时略微提高了可靠性(ICC<0.4)。本研究阐明了特征权重可靠性和预测精度之间的权衡,并且发现单变量统计比预测模型的特征权重稍微更可靠些。测量折交叉验证之间特征权重的一致性夸大特征权重可靠性估计。因此,研究者建议在可能的情况下,对可靠性进行样本外估计。重新平衡从预测准确性到模型可靠性可能会促进机器学习方法对认知的理解。

前言

预测个体的认知能力和行为特征仍然是神经科学的主要目标。利用应用于功能磁共振成像(fMRI)数据的机器和深度学习技术,可以适度的预测人类认知的各个方面,包括智力、注意力和工作记忆。目前的研究工作集中在通过增强fMRI建模、特征工程、深度学习和更大样本来量提高预测精度。因此,在神经成像领域,预测精度已经成为区分认知能力预测模型好坏的决定性因素之一我的模型比你的模型好,因为它更准确

认知神经科学中预测神经成像模型的一个更具体、现实和直接的目标是解释支持认知的神经生物学过程和检验理论上的认知模型。虽然已经发展出许多自上而下和自下而上的认知模型,但这些模型背后的大脑区域、环路、网络和动态神经过程只被部分理解。解释机器学习黑盒的第一步是检查特征的重要性。通常进行适当的变换后,使用拟合权重(即beta系数)来量化特征的重要性。对于权重较大的特性,预测效用是最大的。支持特定认知功能的神经过程在原则上可以被阐明并定位到具有较大特征权重的大脑区域、连接和网络。然而,这需要预测模型不仅是准确的,而且在特征选择和特征重要性估计方面是可靠的。没有可靠的特征权重,无论模型对行为的预测有多准确,理解和解释预测模型都将成为一种项挑战。

最近的一些机器学习研究预测了fMRI衍生的大脑网络的认知表现,并且描述了连接特征权重测试静息状态的可靠性。这些研究表明,特征重要性估计是中度可靠的,尽管可靠性通常不是这些研究的核心焦点,折交叉验证之间β系数的强一致性并不总是用可靠的特征权重来解释。计算折交叉验证之间的重叠特征,以实现重要特征的可视化,便于使用独立数据集进行外部模型验证。基于独立数据集的外部验证是验证的最可行的形式之一,可以深入了解模型的通用性。然而,许多研究没有独立的/外部数据集,因此模型验证通常使用交叉验证方法在同一数据集上进行内部验证。由于分割训练通常不包含折交叉验证之间的独立样本,这可能会导致夸大测试的重测信度估计。因此,需要进一步的工作来确定特征重要性的估计和模型选择的可靠性以及可重复性。

如果研究的主要目标是解释支持认知的机制,那么显著性测试似乎是比机器学习方法更合适的工具。然而,预测模型可以减少传统统计推断的一些局限性,包括过拟合和P值篡改。因此,预测模型和解释模型是互补的,两者都有助于阐明认知的机械性理解。功能连接测量的可靠性可能会影响特权重的可靠性。如果连性特征本身不能可靠地进行测量,特征重要性估计就可能不太可靠。静息态功能连接的可靠性较差或适中,这取决于精确的功能连接测量、fMRI采集长度、分割规模以及许多其他因素。此外,本研究的目的是评估由认知功能预测模型估计的静息态功能连接特征权重的重测信度。

材料和方法

参与者和神经影像数据

这项研究包括了完成所有四项测试和认知评估的参与者,最终样本量为958人(平均年龄28.7±3.7岁,453名男性)。数据采用CIFTI (Connectivity Informatics Technology Initiative)格式进行分析,并且使用了多模态表面匹配方法。

认知评估

认知表现的测量方法包括:i)流体智力(fIQ)ii)晶体智力(cIQ)iii)认知综合测量(IC-Cognition)。在神经影像学中,流体智力是研究最广泛的认知表型之一。晶体智力使用NIH图片词汇测试进行测量,该测试评估一般词汇,提供了晶体智力的指标。Tian等人(2020)的研究所述,对109个行为项目进行独立成分分析,得出了整体认知的综合测量,在当前的研究中被称为IC-Cognition。

交叉验证

用交叉验证的预测模型来预测fIQ,cIQ和IC-Cognition。研究者设计了半分割交叉验证程序来估计构成每个模型的特征权重(即β系数)的重测信度(图1)。

图1.估计特征权重的重测信度和预测模型类型的交叉验证程序。

样本外重测信度

对于每个训练-测试数据分割,使用两个分割中的其中一个训练预测模型来预测fIQ,cIQ和IC-Cognition。将训练后的模型应用于另一个分割(测试集),以评估预测精度。这产生了两组β系数(β1和β2)。组内相关系数(ICC)是fMRI中常用的重测信度估计方法,被用来量化两次分割之间β系数的一致性程度。两个β系数的一致性称为样本外重测信度(图1a)。较高的ICC值表明特征的重要性能够可靠地定位到特定的功能连接。使用Fisher最初提出的ICC公式:


样本内重测信度

与样本外估计相比,特征选择的一致性(即特征权重的重测信度)通常通过i)在k折交叉验证或留一法交叉验证迭代求平均(或求和)特征权重来评估;ii)在所有折交叉验证训练比例中,选择β系数超过某一阈值的特征。如图1b所示,在Split 1和Split 2这两个数据的每一个Split中进行k折(k=10)交叉验证。

预测模型和预测精度

四种常用的线性回归模型来预测fIQ,cIQ和IC-Cognition(图1c):i)最小绝对收缩和选择算子(lasso);ii)岭回归;iii)核岭回归;iv)基于连接体的预测模型(CPM)。研究者没有考虑深度神经网络和非线性模型,因为这两个模型不允许直接解码预测特征和感兴趣的目标变量之间的关系。基于测试集中所有个体的和样本外预测认知分数之间的Pearson相关系数来量化预测精度。在性别方面,考虑到样本中男性和女性年龄差异显著,所以在评价预测精度时,控制性别和头部动作(FD)以及年龄(偏相关)。

Haufe

对β系数进行Haufe变换,然后再评估重测信度。这种转换提高了特征权重的可解释性,确保特征重要性的权重值。对于给定连接的Haufe变换β系数计算公式为:


结果

研究者在一组健康成年人参与者中,使用流体智力(fIQ)、晶体智力(cIQ)和整体认知能力(IC-Cognition)预测模型来估计特征权重的重测信度。使用各种机器学习方法训练每个半分割的预测模型,并使用组内相关系数(ICC)来评估两半分割之间的特征权重以检验重测信度。研究发现,利用静息态功能连接强度能够以适中的准确性来预测fIQ,cIQ和IC-Cognition(图2a)。然而,在所有机器学习模型和认知表现测量中,估计特征权重始终显示出较差的可靠性(ICC<0.3)(图2b)。相比之下,几个模型的性别预测特征权重显示出中等可靠性(ICC>0.6)(图2b)。

图2.用半分割交叉验证方法估计400个不相关个体的预测精度和特征权重的重测信度。

预测精度

如图2a所示,在所有认知测量中,预测和实际认知表现之间的相关系数显著超过了机会水平预测:fIQ(均值±标准差(SD),lasso:r=0.16±0.07;岭:r=0.19±0.07;核岭:r=0.14±0.09;CPM-positive:r=0.10±0.08;CPM-negative:r=0.02±0.06), cIQ(Lasso:r=0.29±0.09;岭:r=0.32±0.07;核岭:r=0.30±0.07;CPM-positive:r=0.09±0.07;CPM-negative:r=0.11±0.07),IC-Cognition(lasso:r=0.25±0.08;岭:r=0.26±0.07;核岭:r=0.23±0.08;CPM-positive:r=0.07±0.07;CPM-negative:r=0.11±0.07)。性别预测精度高于认知表现(lasso:r=0.73±0.03;岭:r=0.73±0.03;核岭:r=0.71±0.04;CPM-positive:r=0.29±0.07;CPM-negative:r=0.38±0.07)。

特征权重重测信度

特征权重重测信度采用ICC进行评估。具体如图2b所示,在所有认知测量中,ICC值显著超过了机会水平。尽管显著大于随机,特征权重重测信度在所有三种认知测量中都很差(ICC<0.3)。超参数优化和模型拟合的随机性并非导致特征权重可靠性差的原因。

Haufe

接下来,研究者考察了Haufe变换对特征权重重测信度的影响。这种变换通常用于特征权重,以提高其可解释性。结果发现,虽然变换提高了半分割对之间的ICC值,但ICC的变异性显著增加(图2c)。在所有认知测量中,ICC值再次显著超过了机会水平。Haufe变换可以提高特征权重的可靠性,但变换后增加的变异性可能导致无法预测的情况。

大量单变量显著性检验

研究者在发现相对较差的特征权重重测信度后,接下来研究了大量单变量显著性检验是否能比预测模型具有更为可靠的推断。独立计算每个连接的检验统计量和相应的未校正p值,以检验功能连接强度和认知表现之间的原假设(虚无假设)然后使用基于网络的数据统计(NBS) 和错误发现率(FDR)进行校正。用Dice系数来评估每个半分割对之间的重要连接的重叠程度,这类似于使用ICC作为特征权重的过程。如图2d所示,Dice值在所有认知测量中都非常小,而性别差异显示半分割对之间的Dice值适中。与预测模型相比,大量单变量显著性检验并不能控制认知表现的功能连接进行可靠地推断。

样本量的影响

研究者接下来测试了在更大的样本量下(n = 800,比之前的样本量增加了一倍),预测精度和重测信度是否提高。在图3中,比较了两个样本量之间的预测精度和特征权重重测信度。对于大多数预测模型,与n=400相比,在n=800时,预测精度(图3a)和特征权重重测信度(图3b)显著提高,虽然在大多数模型中的提高不大,但是在性别预测模型中最为突出。样本量增加也略微提高了Haufe变换特征权重的可靠性(图3c)和单变量显著性检验的可靠性(图3d)。这些结果表明,样本量的大幅增加可以使特征权重在一定程度上得到改善。

图3.比较n=400和n=800样本量的半分割交叉验证。

特征权重可靠性的样本内估计

以往的研究表明,本文研究的预测模型具有较高的特征权重可靠性。为什么本研究发现特征权重可靠性较差呢?上述所有实验中(如图2和3所示),在样本外检验重测信度,而之前的大多数研究报告的样本内估计是基于跨折交叉验证和迭代的β系数的一致性。因此,研究者明确比较了样本内和样本外估计的预测精度和特征权重重测信度。对于样本外的可靠性,计算训练集上平均特征权重的ICC。研究结果发现,预测和实际认知表现之间的相关系数具有高度可比性,数据样本之间的准确性估计变异性具有可比性(图4a)。然而,与所有认知测量和性别的样本外估计相比,特征权重重测信度的样本内估计被夸大了(图4b)。样本内ICC显示特征权重的信度很好(ICC>0.98),而样本外估计则显示认知的信度较差,性别预测的信度较好。所以特征权重可靠性的样本内估计被夸大,如果可能的话,应该使用样本外估计。

图4.特征权重重测信度的样本内和样本外比较。

预测模型之间特征权重的一致性

使用ICC评估四种预测模型(lasso、ridge、kernel ridge和CPM)之间特征权重的一致性程度。研究发现,特征权重在和核回归之间一致性程度最高,特别是在性别预测方面还有在三个认知测量方面(样本内ICC>0.8)。Lasso与岭回归具有较好的一致性(样本内ICC>0.4),而CPM与认知和性别预测的三种回归模型具有较低的一致性(样本内ICC<0.2)。此外,Haufe变换提高了模型间特征权重的一致性。

图5.不同预测模型间特征权重的一致性。

区域分析

在上述所有实验中,特征权重重测信度都是全局量化的,没有考虑组成特征空间的连接和区域之间可能存在的信度差异。因此,研究者接下来考察了岭回归预测情况下,特征权重可靠性的区域变化。研究者观察到Split 1和Split 2的特征权重在区域上有很大的差异(图6a)。Haufe变换略微减少了半分割对之间的变异,尽管将特征重要性可靠地归因到特定区域仍然具有挑战性(图6b)。例如,在Split 1中,颞叶皮层的特征权重为正,而在Split 2中,前额叶皮层和纹状体的特征权重为正(图6b)。同样的变化在负加权区域也很明显,其中在Split 1中,腹侧正中前额叶皮层的负权重最大,但在Split 2中,顶叶皮层和颞极区域的权重为负(图6b)。相比之下,在性别预测中,特征重要性可以更可靠地归因于特定区域和典型大脑网络(图6c和6d)。例如,男性最显著的预测特征是强大的脑间网络连接,特别是默认模式网络区域与其他网络区域(如背侧注意网络、视觉注意网络和腹侧注意网络)之间的连接。相反,强大的网络内部连接通常更能预测女性群体。这些区域分析表明,从特定大脑区域和典型功能网络的角度可靠地解释预测效用,对认知表现的预测模型具有挑战性。

图6.连通性特征权重的区域表征。

特征空间维的影响

最后,研究者考察了特征空间维数对预测精度和特征权重静息态重测信度的影响。结果发现预测和实际认知表现之间的相关系数随着特征空间维数的增加而增加,尤其是在性别预测方面,而在fIQcIQ和IC-Cognition方面的相关系数较小(图7a)。通过增加特征空间维数而获得的预测精度的提高是以较差的特征权重重测信度为代价的(图7b)。

图7.预测精度与特征权重重测信度之间的权衡,由特征空间维数决定。

讨论

尽管从个体的静息态功能连接能够可靠地预测认知表现和智力水平,但是研究者发现特征权重重测信度很差。因此,对特定的连接、区域和网络进行可靠的预测存在一定的难度。较差的特征权重可靠性限制了机器学习方法用于解释认知的神经生物学机制和检验理论认知模型的程度。大样本容量、某些特征权值变换等略微提高了特征权值的可靠性,但特征权重对之间的ICC值仍然较差(ICC<0.4)。在预测认知表现时,特征本身的完整性(即静息态功能连接测量)并不完全是特征权重可靠性差的原因。较差的特征权重可靠性可能是静息态功能连接的动态性质和个体在首选认知策略决策中的显著异质性的结果鉴于不同的认知策略会对功能连接产生不同的影响,在不同的个体样本中,可能会有多个特征权重解决方案来实现可比较的预测精度,其中每个特征都代表了不同的认知策略。在这种情况下,机器学习算法将只学习众多解决方案中的一个,而不会对预测精度的可替代解决方案提供明确的见解。

在整个研究中,从重测信度的角度解释了半分割样本间特征权重的一致性程度。然而,特征权重间较低的ICC值也可以解释为特征选择的不稳定性和解的非唯一性(机器学习视角)、抽样变异性(统计视角)和测量效度较差(认知心理学视角)的证据。在机器学习中,特征选择的不稳定性是一个众所周知的问题,训练样本的小变化可能导致特征权值的较大改变。最近的几项研究侧重于比较基于神经成像的认知表现和行为特征预测的深度学习和机器学习方法。虽然评估和最大化预测精度是这些研究的主要考虑因素,但一些先前的研究也评估了特征重要性的一致性,目的是可视化或外部验证预测模型的准确性。

本研究确定了预测精度和特征权重可靠性之间的权衡。提高预测精度的同时会降低特征权重的可靠性。可靠性的提高可能是由于在更宽的空间范围内平均fMRI信号所提供的更高的信噪比,从而导致更为精确的功能连接测量。研究者还考察了单因素显著性检验的重测信度。对于每一个连接,都需要独立测试认知表现和静息态功能连接强度之间的虚无假设。有趣的是,用于评估该虚无假设的连接单变量检验统计量显示出比预测特征权重更大的可靠性。因此,如果研究人员的主要目标是阐明认知表现和大脑连接之间的关系,那么经典的统计推断就不应该被忽视,因为与预测模型相比,它的可靠性更高。考虑到与静息态功能连接相比,任务引起的大脑连接可以产生更准确的认知表现预测,所以未来的工作还应该集中研究来自任务态功能磁共振成像(fMRI)的预测模型的可靠性。最后,除了特征权重外,还可以通过其他方式推断特征重要性。某些特征可以从特征空间中排除,并使用简化的特征空间重新训练预测模型。

综上所述,认知神经科学中基于神经成像的预测模型正在蓬勃发展。然而,为了预测而进行预测是一个容易陷入的陷阱,研究者也因此希望能够促使注意力从最大化预测精度转向建立基于可靠特征权重的可解释模型。对于目前基于静息态功能连接的认知表现预测模型来说,特征重要性很难被可靠地估计,这意味着将预测效用定位于特定的功能连接和环路是具有挑战性的。这也限制了预测模型可以用神经生物学机制来解释的程度。但本研究发现,更大的样本量、非稀疏特征选择/正则化可以略微提高特征权重检验的可靠性,而且研究者建议估计样本外的可靠性因为在折交叉验证和迭代之间衡量特征权重一致性的方法会导致特征权重可靠性估计被夸大。

你可能感兴趣的:(基于功能连接的认知机器学习预测模型:特征权重可靠吗?)