集成算法——随机森林(Random Forest)

1、算法简介

随机森林(Random Forest),简称RF。随机森林是由多个决策树模型组成的集成模型,森林中的每棵决策树并不相同。在构建决策树时,我们从训练数据中有放回的随机选取一部分样本,同时也不会使用数据样本中的全部特征,而是随机选取部分特征进行训练。用于构建随机森林的每棵决策树使用的样本和特征都各不相同,由于二重随机性,每棵树都不会一样,因此,这增加了随机森林整体的泛化能力。

在预测环节,随机森林中的每棵决策树会分别进行预测,最终结果将通过投票来确定。

集成算法——随机森林(Random Forest)_第1张图片

2、算法主要优点

(1)能够处理很高维度的数据,并且不用做特征选择

(2)训练完成后,能够给出哪些特征比较重要,可以用于特征重要性分析

(3)容易做成并行化方法,执行速度比较快

(4)方便进行可视化展示,便于分析

你可能感兴趣的:(白话机器学习,机器学习,决策树,算法,随机森林)