随机森林基础总结

转自:深思海数

随机森林基础总结_第1张图片

随机森林(Random Forest)

随机森林(random forest)顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类。

随机森林主要应用于回归和分类。

随机森林在运算量没有显著提高的前提下提高了预测精度。

随机森林基础总结_第2张图片

在建立每一棵决策树的过程中,有两点需要注意 – 采样与完全分裂。

首先是两个随机采样的过程,随机森林对输入的数据要进行行、列的采样。对于行采样,采用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本。假设输入样本为N个,那么采样的样本也为N个。这样使得在训练的时候,每一棵树的输入样本都不是全部的样本,使得相对不容易出现over-fitting。

然后进行列采样,从M个feature中,选择m个(m << M)。之后就是对采样之后的数据使用完全分裂的方式建立出决策树,这样决策树的某一个叶子节点要么是无法继续分裂的,要么里面的所有样本的都是指向的同一个分类。

一般很多的决策树算法都一个重要的步骤 – 剪枝,但是这里不这样干,由于之前的两个随机采样的过程保证了随机性,所以就算不剪枝,也不会出现over-fitting。

可以这样子来理解,每一棵决策树就是一个精通于某一个窄领域的专家(因为我们从M个feature中选择m让每一棵决策树进行学习),这样在随机森林中就有了很多个精通不同领域的专家,对一个新的问题(新的输入数据),可以用不同的角度去看待它,最终由各个专家,投票得到结果。

随机森林基础总结_第3张图片

在随机森林中,我们将生成很多的决策树,并不像在CART模型里一样只生成唯一的树。当在基于某些属性对一个新的对象进行分类判别时,随机森林中的每一棵树都会给出自己的分类选择,并由此进行“投票”,森林整体的输出结果将会是票数最多的分类选项;而在回归问题中,随机森林的输出将会是所有决策树输出的平均值。

二、随机森林的随机性

随机森林的随机性体现在两个方面。第一是样本的随机性,从训练集中随机抽取一定数量的样本,作为每棵决策树的根节点样本;第二是属性的随机性,在建立每棵决策树时,随机抽取一定数量的候选属性,从中选择最合适的属性作为分裂节点。我们希望随机森林中的基学习器,即决策树“好而不同”。“好”即森林中每一棵决策树泛化性能好,随机森林中的决策树是基于某个随机属性集选择最优属性,这一步可加速收敛;“不同”即森林中决策树的多样性,主要基于样本扰动和属性扰动来实现。

随机森林算法框架

下图以分类问题为例进行算法框架说明:

随机森林基础总结_第4张图片

Step1:从训练集中随机抽取一定数量的样本,作为每棵决策树的根节点样本;

Step2:在建立决策树时,随机抽取一定数量的候选属性,从中选择最合适属性作为分裂节点;建立决策树的算法可参见《分类算法系列之决策树》;

Step3:建立好随机森林后,对于测试样本,进入每一棵决策树进行类型输出或回归输出;若是分类问题,以投票方式输出最终类别,若是回归问题,以每一棵决策树输出的均值为最终结果;

可优化的参数

除了决策树算法中可优化的参数(最小叶节点样本数、剪枝方式等),随机森林还有一个可优化参数就是森林中决策树的棵数。举个例子,在实际操作中可设置随机森林中的决策树棵树为10,20,30,…,100棵,根据一定棵树下对应的训练集和测试集误差趋势,找到泛化性能最好的棵数。转自:今日头条

感谢您的阅读,祝您一天好心情!



长按二维码,关注我们

640?wx_fmt=jpeg

你可能感兴趣的:(随机森林基础总结)