代谢组数据分析(十八):随机森林构建代谢组诊断模型

代谢组数据分析(十八):随机森林构建代谢组诊断模型_第1张图片

介绍

使用随机森林算法和LASSO特征选择构建了一种胃癌(GC)诊断预测模型。参与者(队列1,n=426)通过随机分层抽样分为发现数据集(n=284)和测试集(n=142)。接下来,在发现数据集上执行LASSO回归,以选择能够识别胃癌患者的较少数量的特征。我们将L1约束的系数设置为0.01,并根据10,000次随机交叉验证的平均误分类误差选择了十个非零系数的特征。在发现数据集上使用引导聚合方法训练了包含十个选定代谢物的随机森林模型。最终模型包括了一百个分类器树,这些树是使用基尼不纯度作为分裂标准构建的。对于每个引导样本,学习算法为训练单个决策树而抽取特征的随机子集。决策树学习采用分而治之的策略,通过进行贪婪搜索来识别树内的最佳分裂点。这种分裂过程以自顶向下、递归的方式重复进行,直到所有或大多数记录被分类到特定的类别标签下。一种称为引导聚合的集成方法结合了所有单个决策树的预测,以比单个模型做出更准确的预测。之后,将诊断模型应用于测试集。胃癌诊断的预测值计算为森林中所有树的平均预测概率。单个树的类别概率是同一类别样本在叶节点中的分数。最终预测通过投票机制确定,模型为每个人预测一个值(介于0和1之间),量

你可能感兴趣的:(代谢组分析,数据分析,随机森林,数据挖掘)