文章来源于微信公众号(茗创科技),欢迎有兴趣的朋友搜索关注
导读
大脑的图模型作为研究跨尺度和跨物种的大脑功能和结构连接的框架具有巨大的潜力。基于网络的统计(NBS)是对大脑图进行统计推断的著名工具,它将基于团簇水平的置换检验和连通分量的图论相结合,控制大规模单变量分析中的家族错误率。由于NBS是基于群体层面的统推断计,因此它无法在个体层面上实现知情决策,然而,这对于精确医学领域来说是必要的。这里我们介绍NBS-Predict,这是一种新的方法,它将机器学习(ML)和NBS的强大功能结合在一个用户友好的图形用户界面(GUI)中。通过将机器学(ML)模型与交叉验证(CV)结构中的连通分量相结合,这种新方法提供了一种快速方便的工具来识别基于神经成像的生物标记物。本文的目的是(i)介绍NBS-Predict并使用两组已知真值的仿真数据评估其性能,(ii)验证了NBS-Predict在真实病例对照研究中的应用,包括从精神分裂症患者获得的静息态功能磁共振成像(rs-fMRI)数据,(iii)使用人类连接组项目发布的1200名受试者rs-fMRI数据评估NBS预测。我们发现:(i)NBS预测在两组仿真数据上具有良好的统计效力;(ii)使用受试者的功能连接矩阵分类精神分裂症,NBS-Predict获得了90%的准确率,并在精神分裂症组中识别出连接减少的子网络,主要包括位于额颞区、视觉区和运动区以及皮层下的大脑区域;(iii)NBS Predict还预测了静息状态功能磁共振成像连接矩阵的一般智力得分,预测得分为r=0.2,并确定了与一般智力相关的大规模子网络。总体结果表明,在识别相关特征和预测精度方面,NBS-Predict与现有的特征选择算法(lasso、elastic net、top 5%、p-value)和基于连接体的预测建模(CPM)具有相当或更好的性能。
前 言
人类的大脑是一个由结构和功能连接区域组成的复杂网络。大脑的结构和功能连接在当代神经科学中引起了相当大的兴趣,为开发各种适合分析这些大脑网络的模型铺平了道路。
图论模型是研究大脑功能和结构网络最著名的模型之一。因其丰富,多尺度以及高维的空间特征,大脑图模型(即连接体)预示着寻找神经生物标志物的巨大机遇,也提出了一些新的挑战。在群体水平推断统计的背景下,假设的大规模单变量检验是识别与诊断状态、药物干预和其他实验操作或环境因素相关的边的常用方法。假设的大量单变量检验包括在图中的每个连接处拟合统计模型,并计算相应的p值。尽管研究人员广泛使用这种方法,但它面临一个重大挑战:多重比较,这会导致大量误报。尽管使用传统方法如FWE(Bonferroni)和错误发现率(FDR)控制假阳性的数量,但这些方法会导致统计效力的显著损失(即假阴性增加)。为了克服这一挑战,基于网络的统计(NBS)的方法被提出。NBS是一种著名的统计推断方法,用于识别根据连通图分量定义的子网络。具体而言,NBS的目标是找到包含与超过预定义阈值的统计效力相关的边的连通图分量(团块)。因此,与传统的校正方法相比,NBS在许多情况下提供了更大的统计效力。近年来,NBS方法的许多扩展已经开发出来,包括无阈值聚类增强和基于度的扩展。
随着大规模开源数据集、计算能力的进步以及对预测性生物标志物的兴趣日益浓厚,神经科学中对机器学习算法的需求正在增加。机器学习模型在识别预测性生物标志物方面具有广阔的前景,因为它们不受可能生成机制的偏见。尽管很有前景,但基于全脑功能连接 (FC) 的机器学习方法容易受到所谓的“维度诅咒”问题的影响。样本与特征(即预测变量)的低比率会增加过度拟合的可能性,因此经过训练的模型在新数据上表现不佳。为了避免过拟合,可以采用降维方法。预测研究通过(i)选择与元分析网络(即已有研究发现的相关网络)相对应的区域到区域 FC 值来降低特征的维数,(ii)仅考虑与特定兴趣效应的推论统计关联的FC 值,或 (iii) 使用包含固有特征选择程序的估计器,例如lasso or elastic net。最重要的是,因为这些方法考虑孤立边或边的组合,而不管它们是否形成网络(即连通分量),这种方法与广泛接受的观念相悖,即认知或情感等高阶大脑功能仅可能通过大脑区域网络实现。因此,孤立的特征或分散特征的组合(即不形成连接网络的孤立边的组合)可能不太适合提供表征大脑功能的生物学上合理的生物标志物。
为了缓解维度灾难、缺乏可解释性和泛化问题,我们开发了一种新的预测方法,称为 NBS-Predict。NBS-Predict 是 NBS 的新扩展,它将重点转移到单个个体的预测上。在 NBS-Predict 中,我们利用 NBS 方法的大部分内容(置换检验除外)作为特征选择方法来检测生物相关的子网络(即连通分量),并将它们与机器学习相结合以执行基于连接组的预测。具体来说,NBS-Predict在交叉验证结构中将图论与机器学习算法(例如,支持向量机、决策树)相结合来识别具有相关预测性能的图分量。此外,NBS-Predict 带有不需要任何编程专业知识的图形用户界面(GUI)。因此,研究人员可以从易于解释的机器学习应用流程中受益,以促进在大脑网络中探索预测性生物标志物。
NBS-Predict与NBS和其他预测方法有几个不同之处。首先,NBS-Predict 的主要目的是预测个体结果变量(例如,诊断标签或心理测试分数),并检测对结果预测性能有贡献的相关边的子网络;即,NBS-Predict 不像 NBS 那样比较两组图。其次,通过在 CV 结构中运行并提供与生成的大脑网络相关的预测分数,NBS- predict在现实应用中开发通用的生物标志物方面比NBS更有优势,特别是在预测基于个体脑网络的单个个体(例如,治疗结果的预测、诊断状态)。其次,与原始 NBS 方法相比,NBS-Predict 输出一个加权网络,其中权重表示特征对模型的贡献程度。这个加权网络提供了关于唯一边对模型的贡献的可解释信息。因此,与一般机器学习算法(例如,lasso, elastic net)相比,NBS-Predict提供了更直接的特征贡献解释,而在一般机器学习算法中,模型系数很难解释,必须进行校正才能对特征贡献做出基本解释。与基于连接组的预测建模(CPM,一种使用连接组数据预测个体行为差异的机器学习方法,仅用于回归问题)相比,NBS-Predict可以处理离散和连续的结果变量。CPM 仅基于特征和输出变量之间的线性关系来选择个体特征,而 NBS-Predict还通过使用在超阈值旧边中识别的连通分量来考虑特征空间中的空间模式。此外,NBS-Predict为数据分析提供了完整的流程,包括预处理(例如,去混叠、缩放)、特征选择、超参数优化、使用一组不同的机器学习算法进行评估和可视化。它不需要任何执行机器学习算法的经验,使其成为一种快速、可靠且易于使用的工具。
在本文中,我们介绍了NBS-Predict方法,在几个实验设置中证明了这种新方法的实用性,并将其性能与适用于大脑网络的现有机器学习和特征选择方法(如CPM、elastic net、lasso、top5%的特征,p-value)做基准测试。具体而言,我们(1)评估 NBS-Predict 在具有已知真值的两组仿真数据上的性能;(2)将 NBS-Predict 应用于真实的病例对照研究,该研究使用从精神分裂症患者获得的静息状态 fMRI 数据,先前在原始 NBS 文章中进行了分析(Zalesky 等,2010);(3)将 NBS-Predict 应用于来自 Human Connectome Project 发布的1200 受试者静息态 fMRI 数据,以识别与一般智能相关的大脑网络。
方 法
2.1. NBS-Predict
我们首先介绍了nbc-predict方法使用的一般框架、目录和数据格式。
2.1.1. 连接矩阵
NBS-Predict 需要 N ×N 连接矩阵作为输入(每个被试一个矩阵),其中 N 是分割的大脑区域(或图中的节点)的总数。由于不同的脑图谱在大脑中提供了不同层次的细节,研究人员应该根据他们的假设来决定分割方案。
2.1.2. 交叉验证
NBS-Predict在重复的交叉验证结构中运行(如果执行超参数优化,则为嵌套 CV,见图 1)。在交叉验证的每次迭代中,使用特征选择,即超阈值边选择,检测相关边的子集。然后对未用于特征选择的数据评估预测准确性。如果需要,可以在内循环中调整超参数。交叉验证已被广泛用于估计机器学习模型的性能。在交叉验证过程中,数据被分成K个子集,对于每次迭代,从K个子集中选择一个作为测试集,而剩余的子集(即K -1个子集)组合为用作训练集。交叉验证结构重复r次,以减少模型性能估计中的变化。
2.1.3. 通用算法
图 1. NBS-Predict 算法示意图。NBS-Predict 使用连接矩阵作为输入。NBS-Predict中使用的交叉验证结构由两个循环组成:(i)在外循环中,进行超阈值边选择(即特征选择),并使用所选的连通分量执行模型评估;(ii) 如果需要,在内部循环中,执行超参数优化。通过外部折选定的连通分量乘以相应折的样本外分数。在外部循环,加权邻接矩阵计算为所选连通分量的邻接矩阵的平均值。每条边的权重表示所选连通分量中存活的边以及在相应折中训练的模型的预测性能。这个加权邻接矩阵是 NBS-Predict 的输出,同时是整体预测性能。研究人员可以进一步设置这个矩阵的阈值,以可视化包含整个模型最相关边的子网络。此外,如果需要,NBS-Predict 会连续运行适合给定机器学习问题(回归或分类)的不同机器学习算法,并返回性能最佳的算法结果。
NBS-Predict工作流程示意图如图 1 所示。从每个连接矩阵中提取出唯一的边并存储在矩阵中,其中每一行代表一个不同的被试,每一列包含特定边的连通性值(例如,皮尔逊相关系数)。在外循环中,该矩阵根据交叉验证方案(K折或留一法)在被试维度上拆分,并且可选地将训练集转移到内循环进行超参数优化。超阈值边选择:NBS-Predict 在外循环的训练集中使用超阈值边选择(如果执行超参数优化,也可以内循环中执行)来识别超阈值边集中的连通分量。超阈值边选择与原始 NBS 方法相同。具体来说,超阈值边选择包括以下步骤:(i)每条边拟合一个基于给定对比度的一般线性模型(t-test 或 F-test),并计算相应的 p 值;(ii) 然后初始选择 p 值低于预定义 p-value(例如,0.01)的边;(iv) 然后使用呼吸优先搜索算法识别可能存在于超阈值边集中的连通分量;(v)选择存在于最大连通分量中的超阈值边以进一步用于训练机器学习模型。与原始 NBS 方法(使用置换检验来推导已识别图分量的重要性)相比,NBS-Predict 中没有应用置换测试,因为(最大的)连通分量仅用于特征选择,而不管其相关的家族错误。请注意,p 值选择决定了输入到机器学习模型的所选连通分量的大小,从而影响预测性能。
模型评估:在机器学习算法训练和测试期间,最大连通分量中存在的超阈值边的连接值用作的特征(即预测器)。NBS-Predict中可用的机器学习模型在附录1中给出。在外循环的每次迭代中,训练模型,并在测试集上评估训练模型的预测性能。存在于测试的连通分量中的超阈值边然后被分配有这种预测性能。将预测性能分配给这些边,考虑了预测性能可能在交叉验证折之间变化的可能性,从而能正确评估边对整个模型的贡献。因此,每条边的赋值代表了所选连通分量中存在的边以及在相应折中训练的模型的预测性能(即未选择的边设置为0)。几个性能指标可用于衡量模型的预测性能(见附录 2)。上面提到的所有步骤都重复r×K次,其中r是CV结构的重复次数,K是折数。
超参数优化:可选地,可以在内循环中优化各种机器学习算法的超参数。在内部循环的每个折中,执行超阈值边选择,并使用交叉验证评估相应超参数的几个候选值的性能。然后将最大限度地提高预测性能的一组参数用于外循环。附录1给出了 NBS-Predict 中可能的超参数。
加权矩阵:作为最后一步,所有外部折的连通分量的加权邻接矩阵(未选择的边被指定为 0)平均和缩放,产生一个平均加权网络,其中权重代表边对整体模型的贡献。例如,在外折的大多数分量中都发现了具有高权重的边,这表明该边是预测目标变量的重要生物标志物。随后,研究人员可以对生成的网络应用阈值,以将最重要的特征可视化为子网络。这为用户提供了对网络边对预测性能的贡献的直接解释。这是 NBS-Predict 优于其他预测方法的一个优势,因为(i)从机器学习算法得出的权重向量(即系数)不稳定且不易解释,以及(ii)其他机器学习算法忽略数据的拓扑结构。注意,人们还可以将边权重解释为所选边的显著性强度,因为这些是通过结合经典的一般线性模型和连通分量来选择的(即,较高的边值表示在大多数交叉验证折中,边被认为是显著的)。
模型性能:总体而言,样本外预测性能是通过对外部循环的选定连通分量的预测分数进行平均来获得的。这个性能代表了整个模型的预测性能。值得注意的是,子网络在加权阈值化后的预测性能可能与整体性能不同,因为阈值化几乎肯定会导致与原始特征集不同的特征集(即子网)(即,在每个CV折中特征选择的连通分量)。尽管如此,NBS-Predict 允许计算事后子网的预测性能。但是,应该注意的是,用户不应仅根据生成的子网络的预测性能来选择权重阈值,因为这可能会导致过拟合。
预测算法选择:由于事先不知道性能最好的预测算法,如果需要,CV结构在额外的非CV循环中运行,在那里确定性能最佳的预测算法。具体来说,NBS-Predict使用适合问题性质(分类与回归)的各种机器学习算法执行整个训练和测试过程,并返回由性能最佳的机器学习算法得出的结果。尽管如此,用户还是可以查看其他候选算法的结果。NBS-Predict中使用的所有回归(线性回归、支持向量回归和决策树回归)和分类(逻辑回归、支持向量分类、决策树分类和线性判别分析)算法均来自通过 MATLAB 开发的Statistics and Machine Learning Toolbox。
图2. NBS-Predict GUI的截图。
2.1.4. 图形用户界面
图 2 显示了 NBS-Predict 的图形用户界面(GUI)。虽然类似于 NBS GUI,但它具有额外的机器学习操作。用户必须提供相关矩阵、脑区、设计矩阵和对比向量来分析连接组数据。用户可以另外选择特定的分类或回归算法。该界面允许用户运行超参数优化,选择超参数优化的搜索方法(例如,网格搜索、随机搜索和贝叶斯优化),定义 CV结构的折数和重复次数,并定义一个特定的p-value用于特征选择。NBS-Predict提供了更广泛的性能评估指标和缩放方法。如果需要,也可以进行并行处理。在数据分析之后,用户可以将结果可视化为加权网络或超阈值子网络、热图、环形网络或由 BrainNet Viewer 生成的 3D 大脑表面。由于工具箱定期更新和扩展新功能和更直观的 GUI 元素,工具箱中共享了最新和详细的用户指南,可在 https://github.com/eminSerin/NBS-Predict
和 https://www.nitrc.org/projects/nbspredict/上找到。
用户指南清楚地说明了工具箱的安装、工具箱在现实世界功能连接数据集的应用以及高级使用实践。此外,工具箱中还提供了详细的数据分析演示说明,工具箱中提供了手稿的第一和第三个应用。
2.2 应用 1
在第一个应用中,评估了 NBS-Predict 在识别两组仿真数据的分类和回归问题中的相关图连接方面的性能。
2.2.1. 仿真数据
使用Zalesky等人(2010)提出的方法生成了两组用于回归和分类问题的仿真数据。(2010)。无标度网络是一种度分布的网络,它遵循幂律,即有限数量的节点具有较大的度(即,与许多节点相连)并且大多数节点具有较小的度。我们选择 Barabási-Albert 模型来生成一个无标度随机网络,因为这可以生成一个只有三个参数的全连接网络:N为网络中的节点数,m为每次迭代中新添加的节点连接到的现有节点的数量,e为新节点连接到现有节点的边数。
在第一个仿真数据集中,一定数量的对比噪声比嵌入到网络中给定数量的边中,以模拟组级差异(即感兴趣效应)。生成过程如下:(i)使用 Barabási-Albert 模型(N = 100,m = 21,e = 10)生成包含 100 个节点和 1000 个边的无标度随机网络;(ii) 使用广度优先搜索算法从随机选择的节点中识别出 50 条边;(iii) 在控制组中,网络中的所有边都仅分配有噪声,即均值为 μ= 0 且标准差为σ = 1 的高斯分布;(iv) 在控制组中,除了先前使用广度优先搜索算法识别的 50 个边外,所有边都分配了噪声。这 50 个边被分配有标准偏差 σ = 1 的高斯分布和对比值的平均值,即对比噪声比 (CNR)。0.25、0.5、0.75 和 1.0 的对比噪声比用于评估 NBS-Predict 在识别包含具有不同效应大小的边的连通分量方面的性能。
生成第二组仿真数据的目的是评估 NBS-Predict 在回归问题中识别真实情况边的性能。为此,我们使用了下面流程的仿真数据:(i) 生成了与之前过程生成的数据相同大小的无标度随机网络,并使用广度优先搜索识别了50条边;(ii) 所有边都分配有高斯噪声;(iii) 生成一个全零系数向量,用作线性模型中的系数;(iv) 在这个系数向量中,用0 到 1 之间均匀分布的随机数分配50 个先前识别的边的系数值;(v) 结果(即目标变量 y )计算为预测变量(即边)和相应系数的点积;(vi) 标准差为σ∈{0.1, 1.0, 3.0, 5.0} 的高斯噪声添加到结果中。
2.2.2. 流程
使用受试者操作特征曲线(ROC) 曲线评估 NBS-Predict 在已知数据真值的仿真网络上的统计效力。ROC曲线是真阳性率(即敏感性或召回率)与假阳性率(即脱落率)的图。ROC 曲线广泛用于神经科学和医学。此外,分别使用分类精度和 Pearson 相关系数评估 NBS-Predict 在第一个和第二个仿真网络上的样本外预测性能。
为了评估NBS-Predict在第一个仿真数据集上的性能,NBS-Predict(10 折CV,重复 10 次,p值= 0.01)对每个CNR运行1000次。在每次迭代中,生成2组仿真网络组(50个对照和与相应CNR对比的50个(具有兴趣对比的子网每次迭代都会变化);运行NBS-Predict 以识别嵌入感兴趣真实对比度的连通分量。计算用于识别具有真实感兴趣对比度和样本外预测性能的连通分量的真阳性率(TPR)和假阳性率(FPR)。在模拟之后,使用整体真阳性率和假阳性率作为所选权重阈值的函数构建ROC 曲线。
在二组仿真数据上使用了类似的流程,除了在每次实现时生成了一组由250个网络组成的仿真网络,这些网络具有相应的噪声值。
在两组仿真数据上,NBS-Predict 的性能与其他特征选择方法(lasso、elastic net、top 5%、p-value)进行了比较。在top 5% 方法中,top 5% 的边是根据它们的测试统计值(例如,t 值、F 值)选择的,而边则仅根据 p阈值技术中的相应 p 值进行选择。我们只在第二组仿真数据上运行 CPM,因为第一组的目标变量是二进制的。我们分别对第一组和第二组仿真数据使用逻辑回归和线性回归。我们在lasso(默认参数)和elastic net(alpha = 0.5,lambda = 0.1)中使用了这些算法的正则化版本。为了执行elastic net,我们使用了 GLMNET 库(http://www-stat.stanford.edu/∼tibs/glmnet-matlab/)中的函数,而其他机器学习算法则来自于MATLAB开发的统计和机器学习工具箱(MathWorks,2017 年)。在 NBS-Predict、CPM 和 p-value阈值方法中,p 值参数设置为 0.01。在所有方法中,我们使用相同的 CV 结构(10 次重复 10 折 CV)。在 CPM 中,top 5% 的特征和p-value阈值,边权重表示边在不同 CV 折中重叠的程度(即,边权重为 1 表示在所有 CV 折中被选为特征)。然而,来自elastic net和lasso算法的加权网络中的权重表示使用 Haufe 等人,2014 中所示的方法校正的相应平均线性估计器系数(即激活模式)。这些来自Elastic Net和lasso的权重也被缩放为具有跨算法权重的标准比例。为了比较它们的性能,我们对所有可选特征选择方法重复了上述模拟过程。
此外,我们评估了结果子网的性能-作为几个权重阈值的函数预测目标(结果,y)变量。为此,我们将一系列权重阈值应用于加权网络(该网络由NBS-Predict应用于两组仿真网络生成),进一步调查结果子网络在其结果预测性能方面的变化程度。我们在附录 3 和 4 中报告了这些结果。
值得注意的是,在两组仿真网络中,强加真值的边形成了一个网络,这可能为NBS-Predict提供有利的性能评估,因为它在特征选择过程中利用了连通分量。为了对NBS-Predict和其他算法的性能进行更平衡的评估,我们进一步研究了 NBS-Predict 和其他算法在识别不形成子网的相关孤立边(即兴趣效应)方面的性能。为此,我们重复了用于生成第一组和第二组仿真数据的类似过程,只是随机选择了50个相关边(即未应用广度优先搜索算法)。我们重复了上述相同的性能评估流程,并在附录5-10中报告了这些结果。
2.3. 应用流程 2
在第二个应用中,我们旨在评估 NBS-Predict 在静息状态功能连接数据的真实病例对照研究中的性能。为此,我们使用了从精神分裂症患者和健康对照组获得的静息状态fMRI 数据。这些数据之前曾在 NBS 的原始论文中进行过研究。我们的目标是使用 NBS-Predict 来复现先前证明的与精神分裂症相关的连接失调的子网络。我们还旨在比较 NBS-Predict 与其他特征选择算法(top 5%、elastic net、lasso、p-value)在真实连接组数据上的分类性能。
2.3.1. 样本
研究样本包括12名精神分裂症患者(μ年龄=32.8,σ年龄=9.2岁,2名女性)和15名健康对照组(μ年龄=33.3岁,σ年龄=9.2岁,1名女性)。精神分裂症患者根据《精神障碍诊断和统计手册IV》进行诊断。两组患者的教育年限、智商和年龄均相匹配。
2.3.2. fMRI数据采集
在英国剑桥的 BUPA Lea 医院使用 1.5 Tesla GE Signa 扫描仪(General Electric,Milwaukee,WI)获得了 T2 * 加权回波平面图像(TR/TE:2 s/40 ms,翻转角:70 ˚,体素尺寸:3.05 ×3.05 ×7 mm,切片间隙:0.7 mm,卷数:512)。
2.3.3 预处理
本研究采用Zalesky等人(2010)提出的预处理方法。使用自动解剖标记(AAL)进行重新排列和运动校正,并将除小脑外的所有大脑区域识别和描绘为节点(共74个节点)。然后平均每个节点(大脑区域)的时间序列。然后回归掉不感兴趣的干扰信号,来校正频率范围 0.03 < f < 0.06 Hz 内的大脑信号。这个频率范围是通过使用最大重叠小波变换对每个节点的时间序列信号分解得到的。
2.3.4. 使用NBS-Predict进行数据分析
对于每个受试者,计算每个节点过滤和校正后的时间序列之间的两两相关性并存储在74 ×74连接矩阵中。然后使用10折CV结构的NBS-Predict (p-value = 0.01)来发现与精神分裂症相关的非连接子网络。由于样本很小,因此 CV 流程重复了 50 次。使用网格搜索算法优化超参数。还对分类算法进行了优化。
由于样本很小,因此 CV 程序重复了 50 次。使用网格搜索算法优化超参数。还对分类算法进行了优化。使用 Dice 系数和 Jaccard 指数评估 NBS-Predict 和 NBS 发现的连接失调子网之间的相似性。NBS-Predict该数据集的分类性能进一步与elastic net、lasso、top 5%和 p-value阈值特征选择算法进行了比较。在所有方法中,类似的 CV 程序(即 10 次重复 10 倍 CV)重复 1000 次,以获得算法性能的精确置信区间。
2.4. 应用 3
在第三个应用中,我们使用 NBS-Predict 在大样本量的静息态 fMRI 中研究智力的神经基础。为此,使用了来自人类连接组计划 1200 名受试者的 897 名受试者样本。此外,还将 NBS-Predict 对 HCP 数据的样本外预测性能与其他算法(CPM、top 5%、elastic net、lasso、p-value)进行了比较。
2.4.1. 样本
人类连接组计划的 1200 名受试者版本包含 1206 个受试者(Glasser 等人,2016 年)。309 名受试者由于缺失神经影像数据或智力测量值缺失被排除在外,留下 897名样本(μ age = 28.76,σ age = 3.69,406 名男性)。样本的人口统计特征如表 1 所示。
表 1样本人口统计:从人类连接组项目发布的1200名受试者中选出897名受试者。
注:年龄和分数表示为平均值±标准差。
2.4.2. 智力得分
由于这项研究的目的是调查一般智力的神经相关因素,我们使用了来自每个受试者的一般智力分数。具体来说,一般智力区分为流体智力和晶体智力的加权总和。为了计算每个人的一般智力得分,我们引入了NIH工具箱(NIHTB-CB)认知成套测验的两个综合分数:(i)结晶认知(源自口语阅读和图片词汇量表的总分)和(ii)流体认知(计算为图片序列记忆、维度购物车排序、列表排序、处理速度和侧翼量表的总分)。综合每个个体的综合得分得出一般智力得分。
2.4.3. 功能磁共振数据采集
本研究使用了人类连接组计划发布的1200名受试者的静息状态功能磁共振成像数据。梯度回波平面图像是在位于圣路易斯华盛顿大学的 3T Siemens connectome-Skyra 扫描仪上获取的。成像参数如下:TR/TE:720 ms / 33.1 ms,翻转角:52˚,FOV:208 × 180 mm,切片数:72,切片厚度:2 mm。受试者被指示在四次 rs-fMRI 数据采集期间注视十字准线,每次持续约 15 分钟。
2.4.4. 预处理
用HCP最小预处理管道和netmats管道预处理rs-fMRI 数据。对MNI-152模板进行了 B0-unwarping和归一化。使用 FMRIB 的基于ICA的Xnoiseifier (FIX)去除了结果数据中的伪影。为了生成功能网络,Power等人使用图谱描绘了节点(264个区域)。使用Pearson相关系数评估每对节点之间的功能连接,为每个受试者生成一个264 × 264的相关矩阵。该预处理程序由Kruschwitz等人提出。
2.4.5. 数据分析与NBS-Predict
我们使用10次重复的5折嵌套 CV(p值=0.01)运行NBS-Predict,并使用网格搜索算法进行超参数优化。我们使用 Snoek 等人中所示的技术缩放数据,并回归年龄和性别因素,以控制任何潜在的混淆。此外,我们比较了NBS-Predict在基于受试者连接组预测一般智力分数方面的性能与其他算法(CPM、top 5% 的特征、elastic net、lasso和p-value)。我们通过重复 CV 程序 500 次来生成算法性能的置信区间。
结 果
3.1. 应用流程 1
图 3 中呈现的 ROC 曲线显示了 NBS-Predict 和其他算法在识别分类生成的与对比相关的第一组仿真数据的边的性能。NBS-Predict 和其他算法产生了良好的统计效力。这种效力的增强来源于CNR;这些算法在 CNR = 1.00 条件下得出了最高的真阳性率和较低的假阴性率。除了图 3,附录 11 显示了特征选择算法在假阳性率为0.01时的真阳性率。NBS-Predict 在 0.25 CNR 条件下测试的所有其他特征选择算法都优于其他所有特征选择算法,这表明 NBS-Predict 比其他算法在低对比度数据中具有优势。对于 0.5 CNR,除了Elastic Net之外,NBS-Predict 的表现优于其他特征选择算法。Lasso 和elastic net在 0.75 CNR 和 1.0 CNR 条件下的性能优于其他算法。
NBS-Predict 和其他算法的分类精度如图 4 所示。在 0.25 CNR 条件下,NBS-Predict 优于elastic net和 p-value,同时与lasso和top 5% 算法产生相似的分类精度。然而,在其他 CNR 条件下,elastic net的性能明显优于其他算法。
图 5 显示了 NBS-Predict 和其他几种特征选择方法在识别回归问题中的相关边方面的预测能力。如图 5 和附录 12 所示,NBS-Predict 在所有噪声条件下以 0.01 的假阳性率水平提供最高的真阳性率。值得注意的是,NBS-Predict 相对于其他算法的优势随着噪声的增加而增加,随着误报率的增加而减少。
图6显示了算法在四种噪声条件下,预测连续目标变量(结果)的性能。结果表明,除了5.0噪声条件外,elastic net在大多数噪声条件下都是最佳算法。p-value算法延续了elastic net在0.1和1.0噪声条件下的优越性能。它还在 3.0 噪声条件下使用一组正边获得了与 NBS-Predict 和 CPM 相似的预测性能,这两种算法的预测性能均优于上述算法。除了在 0.1 噪声条件下表现更好之外,NBS-Predict还在正边大多数噪声条件下都实现了与 CPM 相似的性能。然而,CPM分别在使用负边集、top 5% 和lasso的所有噪声条件下实现了最低的预测性能。
图 3 和图 5 还表明,实现足够 TPR 所需的权重阈值可能因 CNR 和噪声而异,但低权重阈值(即约 0.2-0.3)可提供具有高 TPR 和低 FPR 的子网络。此外,总的来说,NBS-Predict 在两个仿真数据集上产生的 FPR 低于其他算法。
算法的平均CPU运行时间如图7所示。除了Elastic Net之外,算法在完成分析分类和回归任务中都花费了相对相似的 CPU 时间来。然而,elastic net算法在分类任务中的运行速度明显更快,而在回归任务中是最慢的算法。
图 3. 受试者操作特征 (ROC) 曲线用于评估 NBS-Predict 和其他特征选择算法(elastic net、lasso、top 5%和 p-value)在识别具有不同对比度噪声比 (CNR) :(a) 0.25、(b) 0.50、(c) 0.75 和 (d) 1.00 的边时的特异性和敏感性。NBS-Predict(10 次重复 10 折 CV)应用于 100 × 100 合成无标度网络,其中 50 条边分配了相应的对比度噪声比。其他算法也采用了类似的 CV 结构(10 次重复 10 折 CV)和模拟流程。每个点表示使用特定权重阈值的相应算法的 TPR 和 FPR。权重阈值以相反的顺序绘制。注意,图中的最大FPR设置为 0.1。在0.75和1.00 CNR条件下,FPR是以10为底的对数比例尺给出的。
图 4. NBS-Predict 和其他算法(elastic net、lasso、top 5%和 p-value)在四种对比度噪声比 (CNR) 条件下的分类精度:(a) 0.25、(b) 0.50、(c) 0.75 和 (d) 1.00。每个图中描绘的误差条代表 95% 的置信区间 (p < 0.05)。
图 5. 受试者操作特征(ROC) 曲线用于评估 NBS-Predict 和其他算法(elastic net、lasso、top 5% 的特征、p-value特征选择算法和 CPM)在四种不同的噪声条件下(a) 0.1、(b) 1.0、(c) 3.0 和 (d) 5.0用真值识别边的特异性和敏感性。在每个噪声条件下,相应的噪声被添加到由100 × 100 无标度网络生成的50个相关边的目标(即结果,y)变量中。然后将具有各种特征选择算法和 CPM(均使用 10 次重复 10 折 CV)的 NBS-Predict 应用于这些合成的无标度网络。类似的 CV 结构(10 次重复 10 折 CV)和模拟流程用于其他算法。在 CPM 中,阴性和阳性网络被结合起来评估整体特异性和敏感性。每个点使用特定的权重阈值表示相应算法的 TPR 和 FPR。权重阈值以相反的顺序绘制。请注意,图中的最大 FPR 设置为 0.1。
图 6. 在四种噪声条件下 (a) 0.1, (b) 1.0, (c) 3.0, (d) 5.0,NBS-Predict 和其他算法(elastic net、lasso、top 5% 特征、p-value和 CPM)在预测连续目标变量方面的性能(即 Pearson 相关系数)。每个图中描绘的误差条代表 95% 的置信区间 (p < 0.05)。
3.2. 应用流程 2
NBS-Predict的分类准确度为0.900(95% CI:0.888–.913),敏感性为91.5%,特异性为87.2%。决策树分类器被发现是性能最好的算法(表 2)。加权网络及其邻接矩阵如图8所示。
应用最保守的特征权重阈值(即 1.0)来可视化包含相关边的子网络,在11个大脑区域中识别出13个连接降低子网络。左侧运动辅助区和左侧Heschl回是最大程度的不连接区(节点度数=5,表3)。然而,通过更宽松的阈值0.9,NBS-Predict 在精神分裂症患者组中发现了一个连接失调的子网络,这与原始 NBS 论文中确定的子网络高度相似(Dice = 0.96,Jaccard = 0.93),尽管略有不同(图 9,详见讨论)。与精神分裂症相关的子网络包含 28 个节点和 41 个边,这意味着在精神分裂症组中,总共 74 个大脑皮层区域中有 28 个区域的连接减少。连接失调的大脑区域的节点度如表 4 所示。连接失调不仅出现在大脑的前部,如额叶、额颞叶和运动区域,而且还出现在皮层下区域,如左侧海马体、左侧扣带回和中间回、左侧杏仁核,以及后部区域,如左侧枕上回和右侧舌回(图9)。分析显示两个半球的大脑区域之间存在连接失调。左半球的连接失调更明显,表明精神分裂症连接失调的半球相对不对称。在所识别的子网中发现左侧 Heschl 回具有最高的节点度数14,如表 4 所示。图 10 显示了 NBS-Predict 和其他算法的分类精度。采用超参数优化的 NBS-Predict 实现了最高的分类准确率。没有超参数优化的 p-value和 NBS-Predict 产生了类似的分类性能。然而,lasso和top 5%的特征并没有超过上面的组分类。
图 7. 在两组仿真网络上应用 NBS-Predict 和其他算法(CPM、elastic net、lasso、top 5% 的特征和 p-value)得出的平均 CPU 运行时间结果。每个图中描绘的误差条代表 95% 的置信区间 (p < 0.05)。请注意,图中的 y 轴比例不同。
图 8. 加权邻接矩阵和环状网络显示精神分裂症组中的连接减少(未应用阈值,即所有边的权重都非零)。两个图中的边和环状网络图中的节点根据它们的权重和标准化节点度进行着色。每个连接(即块)的缩放权重值表示所选连通分量中存在的边以及在每次交叉验证迭代中模型的预测性能。
图 9. BrainNet Viewer 生成的 3D 大脑表面上精神分裂症组中功能失调子网(权重阈值 = 0.90)的可视化(Xia 等人,2013 年)。节点和边分别根据节点的度和权重用大小和颜色表示。连接失调主要位于额颞区、视觉区和运动区以及皮层下。左半球连接失调的程度更大,表明连接失调的半球不对称。
3.2. 应用流程 3
根据预测和实际智力分数之间的 Pearson 相关系数 r = 0.200(95%置信区间 CI:0.189–0.214),NBS-Predict用静息状态功能连接矩阵预测一般智力。发现线性回归产生最高的预测性能(表 2)。加权循环网络和邻接矩阵如图 11 所示。连接失调程度最大的子网络(即权重最高为 1 的边)包含10个功能性脑网络的36个区域(65个边,表5)。
此外,NBS-Predict使用更宽松的阈值0.90,从几个功能性大脑网络(68 个区域和178个边,图12)中识别出一个包含大量大脑区域的子网络。
由大脑区域及其总度的功能网络如表6所示。
图10. NBS-Predict 和其他算法(elastic net、lasso、top 5% 的特征、p-value)对从精神分裂症患者和健康对照收集的静息状态 fMRI 数据实现的平均分类准确度。在NBS-Predict 和 p-value处理中,使用 0.01 的 p-value来选择相关边。使用网格搜索方法优化 NBS-Predict 超参数选择算法中 L2 正则化的超参数。所有算法均采用 1000 次重复的 10折CV 结构来比较算法的预测精度。每个图中描绘的误差条代表 95% 的置信区间 (p < 0.05)。
图 11. 加权邻接矩阵和环形网络显示了与一般智力相关的连接(没有应用阈值,即所有边的权重都非零)。两个图中的边和环形网络图中的节点根据它们的权重和标准化节点度进行着色。每个连接(即块)的权重值表示所选连通分量中存在的边以及在每次交叉验证迭代中模型的预测性能。
图 12. BrainNet Viewer 生成的三维大脑表面上与一般智力相关的子网络(权重阈值 = 0.90)的可视化。节点和边分别根据节点的度和权重用大小和颜色表示。发现与默认模式、扣带-鳃盖任务控制、显着性、体感、腹侧注意、听觉、额顶叶任务控制、皮层下和背侧注意网络相关的 68 个区域之间的 178 个连接与受试者的一般智力分数有关(r = 0.200)。
NBS-Predict和其他算法(CPM、elastic net、lasso、top 5% 的特征、p-value)的预测性能如图 13 所示。在没有执行任何超参数优化的算法中,elastic net产生了最好的预测性能,其次是lasso。没有超参数优化的 NBS-Predict 产生了与 p-value相似的预测性能,其次是 CPM 和top 5% 特征选择方法。此外,在 CPM 中,负边集的预测性能明显高于正边集。最重要的是,采用超参数优化的NBS-Predict 的性能与没有超参数优化的elastic net类似。
讨 论
4.1. NBS-Predict–概述
我们介绍了NBS-Predict,这是一种结合了传统 NBS 和机器学习的强大功能的新方法。为了证明 NBS-Predict 的性能和实用性,我们在三个场景中评估了 NBS-Predict:(i)使用两组具有不同水平真值的仿真数据进行基准测试,(ii)使用从精神分裂症患者和健康对照组获得的静息状态 fMRI 数据对精神分裂症进行分类,(iii) 使用来自人类连接组计划发布的 1200 名受试者的大样本量的静息态 fMRI 数据预测一般智力分数。在每种情况下,我们比较了 NBS-Predict 的性能与其他特征选择算法(lasso、top 5%、elastic net、p-value)。在第一种和第三种情况下,还比较了NBS-Predict和CPM的性能。
图13. NBS-Predict和其他算法在 HCP 数据集上获得的 Pearson 相关系数预测分数。对于具有超参数优化的NBS-Predict,我们优化了 L2 正则化中的lambda 参数。在 NBS-Predict、CPM 和 p-value中使用了 0.01 的 p-value。所有算法都使用 500 个重复的 5 折 CV 结构来比较算法的预测精度。每个图中描绘的误差条代表 95% 的置信区间 (p < 0.05)。
表2 在第二个和第三个应用流程中,用于分析 rs-fMRI 数据的机器学习算法的预测性能。
注:分类准确度和皮尔逊相关系数分别在第二次和第三次应用中用作性能指标。
表3 连接减少的节点及其程度
注:应用了0.1的权重阈值。
表4连接减少的节点及其度。
注意:应用了 0.9 的权重阈值。
表 5 与一般智力相关的功能网络及其总度。
注意:应用了 1.0 的权重阈值。
* 与任何特定功能网络无关的大脑区域。
NBS-Predict 是一种简单、快速和结构化的方法,它使用连通分量和机器学习算法来识别与感兴趣效应(例如,认知功能)相关的网络模式。它对每个连接的分量执行样本外评估,从而提供相关的样本外预测评分。因此,它允许评估模型的通用性,这对于开发基于神经影像的生物标志物至关重要。NBS-Predict用户友好的 GUI 不需要任何编程专业知识,使研究人员能够轻松执行复杂的分析和可视化结果。应该讨论 NBS-Predict 相对于现有方法的优势。第一种与 NBS-Predict直接比较的方法是NBS。关键是,虽然 NBS 专注于群体统计推断,但 NBS-Predict 旨在通过使用机器学习方法对已识别的超阈值分量进行样本外评估,这些分量与个人层面的预测相关。这不仅可以让我们更深入地了解模型的通用性,还可以更深入地了解模型在描述观察到的数据方面的性能。NBS-Predict 比 NBS 提供了更多关于单个边对模型贡献的信息(即,它提供一个加权网络作为输出;有关详细信息,请参阅方法部分)。方便研究人员在子网可视化过程中确定权重阈值。另一种类似的方法是基于连接组的预测建模。与 NBS-Predict 相比,CPM 需要编程经验,并且只能应用于结果变量连续的问题。与 CPM 相比,NBS-Predict 能预测连续和离散目标,因为它在超阈值边选择中使用通用一般线性模型,结合回归和分类机器学习算法,可以直接应用于两种数据类型。此外,它仅根据与结果变量(即行为数据)的线性关联来选择与预测模型相关的单个边。相比之下,我们设计了 NBS-Predict 来识别与结果变量相关的整个子网络,因为有人提出认知功能源于大脑中大规模网络的激活。此外,与一般机器学习方法不同,NBS-Predict 通过将基于过滤特征选择方法(例如,t 检验、F 检验)与连通分量的图论相结合,获得相对更快的计算速度并且需要较少的特征选择知识。最重要的是,通过 NBS-Predict 获得的网络具有直接的解释。边权重清楚地表明相应边对整个模型的贡献和鲁棒性,这可能表明生物标志物对基于神经影像的预测的重要性。使用一般机器学习算法,权重通常不直观,或者无法获得系数。
4.2. NBS预测——对仿真数据的应用
在第一个应用流程中,我们使用两组仿真数据评估了 NBS-Predict 在分类和回归问题中识别相关连通分量方面的性能。
NBS-Predict在第一组仿真数据上分类性能的评估表明,NBS-Predict相对于现有方法提供了改进的统计效力,尤其是在低 CNR情况中。NBS-Predict 在低 CNR 条件下优于现有方法的优势至关重要,因为在神经影像学研究中效应大小较小。这种优势随着 CNR 的增加而下降,这导致所有特征选择算法在高 CNR 条件下的性能相当。
在第二组仿真数据(即回归)上,NBS-Predict 在识别具有真值边方面表现出不错的性能,这可能与观察次数成比例地增加。在这些模拟中,因为研究对象数量有限,受试者数量较多,我们仅使用 250 个观察值来预测基于 1000 个特征的结果。重要的是,在第二组仿真数据中,NBS-Predict 在所有噪声条件下以低误报率实现了比其他所有算法更高的真阳性率。然而,随着 FPR 的增加,这种预测能力的增益会下降。应该注意的是,这种性能可能会受到多种网络属性的影响,例如大小和密度。
在第一组和第二组仿真数据中,elastic net在大多数情况下,预测结果变量(即目标)明显优于NBS-Predict和其他算法,表明elastic net在预测精度方面优于其他算法。然而,这种优势并非所有数据集都有表现(见图10)。此外,这一优势并未充分反映其在识别相关特征(即具有真值的特征)方面的性能。例如,在第二组仿真数据上,尽管在预测精度方面发现elastic net是性能最好的算法,但在识别相关特征方面,NBS Predict优于elastic net。然而,考虑到其性能,在实现最大预测精度是主要目标的情况下,elastic net是NBS-Predict的一个很好的替代方案。在第二组仿真数据上,使用负边集的CPM是所有噪声条件下性能最低的算法。然而,这些结果是预期的,可以忽略不计,因为只有少数具有基本真值的边可能与结果变量负相关,因此可能不足以做出预测。因此,在更密集的大脑网络中不会出现负边和正边之间预测性能的差距巨大情况(见图13)。
关于计算时间,除了elastic net之外,使用 NBS-Predict 工具箱中函数的算法(NBS-Predict、lasso、top 5% 和 p-value)以类似的速度执行。值得注意的是,elastic net是分类任务(即第一组仿真网络)中最快的算法,但在回归任务(即第二组仿真网络)中是最慢的算法。这主要是因为我们使用了 GLMNET 库来拟合elastic net模型,而其他机器学习算法则来自 MATLAB 开发的 Statistics and Machine Learning Toolbox。我们还发现,除了Elastic Net之外,CPM 的执行速度略慢于其他算法。然而,应该注意的是,CPM 是一个协议,这意味着它需要内部实施。因此,我们认为更优化的 CPM 执行速度将与 NBS-Predict 类似。
在两组仿真数据上,NBS-Predict 和其他算法使用低权重阈值(即大约 0.2-0.3),在合理的假阳性率下获得了良好的真阳性率。值得注意的是,我们使用了相对较小的无标度网络(即,仅包含 1000 条边的 100 × 100 网络),因此,在密集网络中可视化具有可能影响的子网络所需的权重阈值可能更高(例如,在应用流程 2 和 3 中分析的网络)。还证明 CNR 和噪声水平可以确定在低 FPR 下获得具有良好 TPR 的子网所需的权重阈值(见图 3 和图 5)。因此,在定义权重阈值以可视化子网时,应考虑网络的拓扑和大小、数据中的信噪比。
重要的是,应该指出,NBS-Predict 仅在相关边形成网络时才提供强大的工具,因为它在特征选择算法中利用了连通分量的概念。如附录 5-10 所示,NBS-Predict 的性能在识别相关边和目标预测的两组仿真数据(包括与地面实况的非互连边缘)方面的性能显着下降。因此,应该注意的是,如果相关边(或生物标志物)没有形成任何连通分量,则NBS-Predict是无效的。在这种情况下,我们建议通过权衡模型的可解释性和最大预测性能,选择使用elastic net或CPM。
4.3. NBS-Predict–应用于静息态 fMRI 数据
在使用 NBS-Predict 的第二个应用中,我们使用来自健康对照和精神分裂症患者的 rs-fMRI 数据研究了精神分裂症的生物标志物。NBS-Predict 在精神分裂症患者组中发现了一个连接失调的子网络,该子网络包括位于额叶、顶叶、枕叶和颞区以及皮层下的大脑区域。我们的发现几乎重复。唯一的不同之处在于,我们的研究中发现了一个由28个大脑区域之间41个连接减少的连接失调子网络组成,而Zalesky等人(2010)总共确定了 29 个大脑区域之间40个连接减少的子网络。Zalesky等人发现了右侧颞上回(,但在我们的研究中未发现。然而,他们还发现该区域的节点度为1(即,仅识别出一个减少的连接)。因此,我们可以假设该区域的连接失调程度小得无法区分。在应用最保守的权重阈值 1 后,左侧 Heschl 回和左侧辅助运动区 (SMA) 表现出最大程度的连接失调。这些发现与先前的发现相呼应,即 Heschl 回和 SMA是精神分裂症中与幻听和的运动症状相关的主要区域。在分类性能方面,NBS-Predict 的性能优于除 p-value之外的所有其他算法,后者产生了相同的准确性。
在应用三中,我们使用来自人类连接组计划 1200 名受试者发布的 rs-fMRI 数据研究了一般智力的神经相关性。由与多个功能网络相关的大脑区域组成的子网络与受试者的一般智力分数呈正相关。相关性的幅度比之前的研究(Dubois et al., 2018, 2017 )中显示的要小,这可能是因为之前的研究预测了受试者的流体智力而不是一般智力得分。另一个原因可能是在之前的研究中(Shen 等,2013)用 268 节点的全脑图谱分割大脑图像,而我们使用的是 264 节点的基于功能的图谱(Power 等,2011)。正如之前 Dadi 等人所讨论的那样。大脑分割方法的选择可能会影响分类性能。至关重要的是,我们执行了一种交叉验证的去混淆技术,这可能会更好地控制可能的混淆,从而可能导致较低的预测性能。关于与一般智力相关的大脑区域,我们的发现与Hearne 等人的文献一致,表明智力的神经基础以大脑中多个大脑区域之间的连接为特征。在预测性能方面,虽然超参数优化的 NBS-Predict 表现与elastic net相似,但elastic net在没有超参数优化的算法中表现最好。这意味着,在这个特定的数据集上,elastic net中使用的两种正则化方法(L1 和 L2)的混合比 CPM、NBS-Predict、前 5 名% 的特征、p-value以及lasso中使用的 L1 正则化中使用的基于过滤器的特征选择方法更好。然而,如附录 13-14 所示,尽管我们对激活模式进行了缩放(即,我们校正了从elastic net中得出的边权重)以具有跨算法的共同尺度,但原始激活模式很浅,这可能是次优的。已经讨论过激活模式的可靠性取决于机器学习模型的性能。也就是说,当机器学习模型的性能较低时(如在应用 3 中),必须谨慎解释激活模式,因为次优权重导致次优激活模式(参见 Haufe 等人,2014 年供进一步讨论)。因此,尽管elastic net在这个特定数据集上的表现优于 NBS-Predict,但对相应加权网络的解释可能并不完全直接。
4.4. NBS-Predict–局限性
NBS-Predict方法有几个必须解决的局限性。最明显的局限是在超阈值边选择和可视化中需要阈值。在超阈值边选择中,p-value决定了在每个交叉验证折中选择的联通分量的大小。由于一般线性模型用于超阈值边选择,我们建议研究人员遵循与单变量统计方法中使用的类似 alpha 值选择策略,例如如果边总数非常高,则使用相对较低的 alpha 值(例如,0.001)。在可视化方面,边权重阈值用于可视化包含用于预测的相关边的子网络。非阈值加权网络是 NBS-Predict 的结果,但研究人员可以对这个加权网络设置阈值,以提取包含最有可能传递观察数据下重要潜在信息的边缘的子网络。这对于更好地可视化和解释结果很重要。与 NBS 一样,在 NBS-Predict 中没有关于如何选择子网的明确指南。尽管如此,使用加权网络,NBS-Predict 提供了比 NBS 更好的设置阈值的方法,其中阈值在分析之前定义。这是因为加权网络允许在定义阈值之前直观地检查边缘权重的分布。用于可视化子网的权重阈值的解释也很简单,因为 NBS-Predict 中的权重阈值是边对一般预测性能的贡献的分界点。因此,选择子网络的一种策略是将权重阈值设置为1,这会导致子网络包含所有 CV 折中选择的边。然而,更好的策略是选择一个不太保守但仍然很高的权重阈值(例如,0.9-0.8),因为 1 的权重阈值可能过于严格。此外,如果要分析稀疏的大脑网络,使用较低的阈值将是选择子网络的更明智的策略,因为根据第一个应用流程的结果,该方法已得到支持(见图 3 和图 5)。我们还强烈建议研究人员报告加权网络和阈值子网络,让读者了解整个大脑网络的结构和边权重的分布。必须明确的是,所选权重阈值不会影响NBS-Predict在给定数据上的总体预测性能,因为它是作为所选连通分量在外循环上的预测性能的平均值。子网大小根据所使用的权重阈值而变化,从而导致所选子网的预测性能发生变化(参见附录 3、4)。我们强烈建议用户避免使用结果子网络的预测性能作为选择权重阈值的策略,因为这可能导致过拟合。
另一个局限是 NBS-Predict 与 NBS 一样,可以识别最大连通分量中存在的边。然而,这可能会忽略较小连通分量中的边或不任意形成任何连通分量的边的可能影响,从而导致较低的预测性能。然而,包含更小的连通分量会导致更复杂的模型,从而导致过度拟合。NBS-Predict方法的另一个限制是,边权重的分布直接受交叉验证结构中使用的折次数和重复次数的影响(详见“加权矩阵”部分)。CV 折次数越多,边权重分布越细,而结果越少,分布越粗。例如,如果使用 10 次重复的 5 折 CV 结构,则50个不同的权重值分布边权重。边权重分布与折次数的这种依赖性在分析高维数据时更为重要。例如,少CV 折或重复(例如,5 次重复 5 折CV)使用少量不同权重生成权重分布。因此,大量的边可以用相同的权重值表示,这可能会阻碍研究人员清楚地解释边对整体预测性能的贡献。NBS-Predict 方法的这一缺陷的一种可能解决方案是使用大量重复。
结 论
我们介绍了NBS预测,这是基于网络统计的预测扩展。它将机器学习算法与交叉验证结构中的连通分量相结合,以实现一种快速方法来识别具有高泛化性的基于神经影像的生物标志物。NBS-Predict 还带有一个用户友好的GUI,不需要任何编程经验。它对两组仿真数据的预测性能显示出良好的统计效力。在大多数情况下,与其他算法相比,NBS-Predict以适当的误报率提供了相似或更大的效力。在预测性能方面,NBS-Predict 的性能与其他算法相当或更好。我们展示了NBS-Predict在两组连接组数据上的实际效用:(i)从 15 名健康对照者和12名精神分裂症患者获取的静息态fMRI数据,以识别精神分裂症患者大脑连接减少的情况;(ii) 来自人类连接组计划发布的1200名受试者的rs-fMRI数据,用于识别与一般智力评分相关的大脑网络。NBS-Predict在精神分裂症患者组中确定了一个子网络,该子网络由28个大脑区域组成,这些区域在大范围的皮质区域以及皮质下层中的连接减少,这些皮质区域也得到了精神分裂症白质连接体研究结果的证实。对智力神经相关性的分析表明,一般智力评分与由与多个功能网络(主要是听觉、扣带-鳃盖任务控制、默认模式、显着性和躯体运动感觉)相关联的大脑区域组成的子网络之间存在正相关。NBS-Predict 可以在 https://github.com/eminSerin/NBS-Predict
和 https://www.nitrc.org/projects/nbspredict/ 找到。工具箱中还提供了详细的用户手册和演练,说明了在第一个和第三个应用流程中执行的分析。
原文:NBS-Predict: A prediction-based extension of the network-based statistic.
https://doi.org/10.1016/j.neuroimage.2021.118625
看下图获取更多资讯