随机森林特征选择、融合和集成策略

随机森林特征选择、融合和集成策略:结合多种形态学MRI手段,对健康老年人、MCI、cMCI和阿尔茨海默病患者进行鉴别:来自阿尔茨海默病神经成像倡议(ADNI)数据库

摘要:
背景:在计算机辅助诊断各种脑疾病的时代,阿尔茨海默病(AD)在神经影像学研究中占有很大的比重,其主要范围是在日常实践中的应用。然而,还没有研究试图同时区分健康对照组(HC)、早期轻度认知障碍(MCI)、晚期MCI (cMCI)和稳定型AD,使用来自单一模式的特征,即MRI。
新方法:基于神经成像挑战组织者提供的预处理MRI图像,我们试图量化多种形态MRI特征的预测精度,以同时识别amongHC、MCI、cMCI和ad。研究了一种利用整组特征子集(如整组特征、左/右半球特征等)通过随机森林进行多特征选择、利用融合方法进行随机森林分类和通过多数投票进行集成分类的新方法。
关键词:随机森林、阿尔兹海默病、轻度认知障碍、神经图像
1.介绍
2.材料和方法
2.1参与者
MRIs从ADNI中选择。ADNI是一个国际性的项目,收集和验证神经学数据,如磁共振成像和PET图像,遗传学或认知测试。我们使用带有静电的种子随机自动的选择对象,使用Konstanz信息采集器进行数据分析。
通过对从网站下载的文本文件进行三步过滤,选择ADNI的受试者。我们使用了包含诊断转换的文件,用于首先选择健康对照组(HC)、阿尔茨海默病(AD)和轻度认知障碍(MCI)的患者,这些患者在随访中没有转换他们的诊断。然后,用同样的方法,我们选择了那些患有MCI的人他们转变成了阿尔茨海默氏症(cMCI)。
第二步是在某一时间点获得临床数据。年龄、性别、细微精神状态检查评分。
该数据集通过诊断标准被分组,为了获得平衡的对象数分为四个(HC, AD, MCI, cMCI)。
最后一步是获得对象的MRI扫描ID。选择第一个MPRAGE序列,在3T被获得。
最后,整个数据集的400个对象被分为240个对象的训练集和160个对象的测试集。
表一总结训练集和测试集的人口统计资料,包括平均年龄,性别,平均MMSE。
随机森林特征选择、融合和集成策略_第1张图片
2.2磁共振(MR)图像采集
所有受试者均使用Philips 3t Achieva核磁共振扫描仪进行扫描。核磁共振数据采集协议在ADNI的官方网页中有描述
2.3特征提取
t1加权磁共振图像(MRI)由神经成像挑战/比赛的组织者处理,用于MCI的自动分类。
核磁共振成像是由Freesurfer预处理(v5.3),与标准管道(recon-all−hippo-subfields)在电脑上运行GNU / Linux Ubuntu 14.04和16个cpu和16 gb的RAM。
我们使用KNIME plugin K-Surfer (Sarica et al., 2014)将Freesurfer产生的数字数据提取为表格格式。比赛的组织者随后加入了这张带有人口统计学和临床参数的表格。用于培训程序的功能集如下:
MMSE提单细微精神状态检查−总分基线的主题、年龄。
2.4问题公式
国际挑战的组织者自动预测MCI的MRI数据生成一个额外的340 人工观测与真是测试观察(4×40 = 160)挑战测试集形成一个组合测试集有500个观察者。该测试样本被使用在在线Kaggle竞争平台用于分类性能评价。该集合,称为人工-挑战数据集合,被分为公开的和私有的测试集。每次提交后,组织者通过kaggle网络系统返回,500个对象的精度,只是160个对象是真盲数据集,其余(340−假)通过创建一个模型基于训练数据集的特性。基于包含真实测试数据的挑战测试集,实现了团队分类准确率的最终评价和排序。最终,有标签的测试数据和模糊矩阵被使用
对于给定的节点分割,两个结果节点的基尼杂质指数的值小于父节点的值。如果我们将数据集中每个变量的基尼系数杂质降低量累加到一个RF模型的所有树上,我们就得到了每个变量对应的基尼系数重要度测度,从而可以用于特征选择。
2.4.2.融合方法
分类任务中一个有趣的同时也是重要的挑战是使用方法组合多个特征集(或模式),这一过程称为多模式融合。在这种情况下,可以考虑关于执行融合的级别的两种基本策略。
第一个策略,称为早期融合,特征级融合,将来自单个特征集/模式的特征连接起来以创建公共特征向量。然后,一个分类器为了形成最终的预测模型使用这个普通的特征向量被训练。
第二个策略,称为最后融合,决策层融合,对每个特征集/模式分别训练分类模型,将单个结果(分类器得分)融合成最终的公共决策。组合多分类的标准的方法是在最后融合来计算一个单个分类器的分数的权重和。图1和2描述早期和晚期融合的概念。
在该研究中,我们使用早期融合,基于RF操作特征的晚期融合策略。即OOB错误和接近率。这两个晚期融合策略的描述如下:
假设有两个特征集/模式,即D和E。首先,每个集合的特征向量被使用来训练一个单独的RF模型。从两个RF模型中,对于每一特征集/模式的权重需要被计算,为了应用权重融合并且提供最后的RF预测。OOB和临近比延时融合策略被应用如下:
2.4.2.1OOB策略:从每一个特征集的RF模型的OOB错误估计,每个考虑的类的OOB精度值被分别计算。然后对这些值进行标准化,作为两个特性集/模式的权重。
2.4.2.2临近比策略:与OOB策略相比,接近比策略也采用相同的方法。然而,不是利用每个RF模型的OOB精度值,使用内部类和类内代理(每个类)之间的比值值。对于每一个RF模型,构建PR = {prij, i,j = 1,…,n} (n=数据用例数)对数据用例之间的邻近矩阵,内类与类内接近的比值计算如下式所示:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
cLi,cLj是类i和j的类标签
2.4.2.3
权重融合:对于一个未知情况的预测,RF模型为这种情况提供了每个类的概率估计。从两个特征集/模式D和E中可能的输出和,通过他们相关模型权重和被乘(使用OOB策略或接近比策略计算)为了产生最后的RF预测,进行求和:
在这里插入图片描述
2.4.3模型描述
模型1.使用RF分类器在整个特征集进行训练,通过基尼系数对特征选择的重要性进行测量,提供最后的特征子集来重新训练RF模型。
模型2.
A.最开始提供特征空间第一次被分为两个模型-特征集,每一集包含从左或右半球的特征/测量。
B.对每种模态进行ARF模型的训练,与模型1一样,利用基尼系数重要性测度从每种模态中选择最重要的特征。
C.使用结果特征子集重新训练RF模型
D.为了计算两种RF模型的最终预测/概率分数,权重融合被应用在采用接近比的后期融合策略。
模型3:与第二模型相似,唯一不同是在权重融合使用OOB后期融合策略。
模型4:第四种模型采用了与模型2相同的步骤A和步骤B。然后不再使用最后特征训练RF分类器。使用SVM分类模型。分类器模型的输出转换为类上的概率分布。
模型5:我们将早期的融合应用于两种模式产生的特征子集,最后,新的RF模型被训练,使用连接特征向量。
最后,对于基于集成模型输出的未知情况的预测,采用多数表决方案,即预测的类是集成模型得到最多票数的类。
3实验结果
3.1实验装置
对我们使用的RF参数,在实验中,树的数量为每个RF经验模型(基于OOB误差估计),而每个RF模型和分裂在作物生长的树,每个节点数k的变量的子集用于确定最佳分割是基础
重复使用caret8包进行10倍交叉验证。综上所述,对集成的RF模型使用以下参数值:
模型1:树2000棵,k为53,k为节点数
模型2、3:树2000棵,k为根号下m(m为整个特征数)
模型5:树1000棵,k=9
对于所有RF模型在特征选择过程中基尼系数重要性测度的阈值,模型1为0.5,模型2、3、4为0.75,模型5为4.
在模型4,SVM分类器模型对于两个模式/最后的特征子集被训练。特别是,对于左边的模式的SVM模型,多项式核被使用,右边使用高斯核。上述核类型以及两个SVM模型的参数值,被决定使用10倍交叉验证。特别是对于左边的模式的SVM模型,参数程度和比例是3和0.01,右边的模式的SVM模型,参数sigma是0.0163.
随机森林特征选择、融合和集成策略_第2张图片
在这里插入图片描述
3.2选择的特征提取
对于每个模型整体被提供的特征选择(使用基尼系数重要性测量)。注意到53个特征被选择对于模型1,67个特征被选择对模型2、3、4,41个对于左和右模型,9个特征被选择在模型5.
图3,对于5个特征的箱线图,被选择作为重要的在所有分类模型中:
对于预测160个测试集对象的模糊矩阵在表三中可看到,当在表四中,分别给出了集成在测试集上的性能更详细的结果。
4.讨论
在当前的研究中,对于第一次在四类AD问题中实现了高等级的分类精度在盲目的数据处理中。在特征空间中,近年来,基于形态学mri的特征被证明可以提高AD自动诊断的分类精度,如皮层厚度,皮层下容积和海马亚区。使用RF方法来分类,为了更好地学习内部数据集中的特征空间设计不同的模型,因此提高整个模型的泛化。我们使用从训练集到盲测试数据集所选择的特征集进行分类。实现61.9%的分类精确度。
随机森林特征选择、融合和集成策略_第3张图片
随机森林特征选择、融合和集成策略_第4张图片
随机森林特征选择、融合和集成策略_第5张图片
最近的基于MRI多分类报告的分类精度有60%对于HC-MCI-AD,使用一个正则化的极限学习机器和PCA特征选择。整个方法基于一个内部交叉验证方法,无需尝试对第二个外部盲数据集进行分类。
在该研究中,根据RF运行特点应用早期融合和后期融合,即OOB错误和临近比。对于预测未知的情况,RF模型提供基于加权融合策略的每个类的概率估计。
5.结论
我们的方法基于RF和结构MRI特征,对于AD多分类产生最高的分类精度,是第一次研究尝试分为四类(HC, cMCI, MCI, AD),对于盲外部验证数据集实现61.9%的分类精度。方法可以用在多模态生物标志物,专注于新颖和稳健的AD生物标志物

你可能感兴趣的:(机器学习)