第八章 数据决策分析算法——基于随机森林的决策分类

8.4 基于随机森林的决策分类

随机森林是一种一个包含多个决策树的分类器,是用随机的方法建立一个森林,森林里面由很多的决策树组成,且这些决策树之间没有连续。随机森林的算法是由Leo Breiman和Adele Cutle发展推论出的。

随机森林就是通过集成学习的思路将多棵树集成的一种算法,它的基本单元是决策树,而它的本质是属于机器学习的一大分支——集成学习。

8.4.1 随机森林的特点

1、当分类资料集合具有很多资料时,可以产生高准确度的分类器。

2、当分类资料集为不平衡的资料集时,随机森林可以平衡误差。

3、随机森林可以计算出各例中的亲近度,在数据挖掘、侦测偏离者及将资料视觉化方面有着重要的作用。

4、在大数据集上表现良好。

5、能够评估在分类问题上的各个特征的重要程度。

8.4.2 随机森林的构造方法

随机树建立由两部分组成:随机采样和完全分裂。

每棵树的构造方法:

1、用N表示训练例子的个数,M表示变量的数目。

2、用m来表示当在一个结点上做决定时会用到的变量的数目。

3、从N个训练案例中采用可重复取样的方式,取样N次,形成一组训练集,并使用这棵树来对剩余变量预测其类别,并对误差进行分析。

4、对于每个结点,随机选择m个基于此点上的变量。根据这m个变量,计算器最佳的分割方式。

5、对于森林中的每棵树都用不采用剪枝技术,每棵树都能完整生长。

你可能感兴趣的:(第八章 数据决策分析算法——基于随机森林的决策分类)