Random Forest（随机森林）算法是通过训练多个决策树，生成模型，然后综合利用多个决策树进行分类。

1. 单棵决策树的构建：

（1）训练样例的选择

令N为训练样例的个数，则单棵决策树的输入样例的个数为N个从训练集中有放回的随机抽取N个训练样例。

（2）构建决策树

令训练样例的输入特征的个数为M，我们在每颗决策树的每个节点上进行分裂时，从M个输入特征里随机选择m个输入特征，且m远远小于M。然后从这m个输入特征里选择一个最好的进行分裂。m在构建决策树的过程中不会改变。

构建决策树的算法主要有以下三种，且根据决策树的输出结果，决策树可以分为分类树和回归树，分类树输出的结果为具体的类别，而回归树输出的结果为一个确定的数值。其中 ID3 和 C4.5 是分类树， CART 是分类回归树，且在ID3 和 C4.5 中，特征（属性）只能选一次，而 CART 没有这样的要求：

a. ID3 在决策树生成过程中，以信息增益为特征选择的准则。

b. C4.5 在决策树生成过程中，以信息增益比为特征选择的准则。

c. CART 对回归树用平方误差最小化准则，对分类树用基尼指数（Gini index）最小化准则，进行特征选择，生成二叉树。

例：

决策树（DecisionTree）和随机森林（Random Forests）_第1张图片

图1

熵（Entropy）的计算公式为：

熵越大，越复杂（混乱程度越高，数据纯度越低越不好分）

图1左中的信息增益InfoGain1 及信息增益比 InfoRatio1为：

信息增益比为：

信息增益比越大，说明根据这些特征（属性）使得分类更简单（即是我们想要的效果，信息增益比越大说明H2,H3越小，越小说明分类更简单）

同理，图1右的信息增益 InfoGain2 及 InfoRatio2 分别为：

由于 InfoGain1 > InfoGain2，所以由ID3算法选择第一种方法；

由于InfoRatio1 > InfoRatio2 ，所以根据C4.5算法选择第一种方法

基尼指数：

基尼值越大，数据越不纯（不好分）

（3）停止分裂的条件

a. 最小节点数

当节点的数据量小于一个指定的数量时，不继续分裂。两个原因：一是数据量较少时，再做分裂容易强化噪声数据的作用；二是降低树生长的复杂性。提前结束分裂一定程度上有利于降低过拟合的影响。

b. 熵或者基尼值小于阀值

由上述可知，熵和基尼值的大小表示数据的复杂程度，当熵或者基尼值过小时，表示数据的纯度比较大，如果熵或者基尼值小于一定程度数，节点停止分裂。

c. 决策树的深度达到指定的条件

节点的深度可以理解为节点与决策树跟节点的距离，如根节点的子节点的深度为1，因为这些节点与跟节点的距离为1，子节点的深度要比父节点的深度大1。决策树的深度是所有叶子节点的最大深度，当深度到达指定的上限大小时，停止分裂。

d. 所有特征已经使用完毕，不能继续进行分裂

2. 随机森林的分类结果

按照1生成t个决策树之后，对于每个新的测试样例，综合多个决策树的分类结果来作为随机森林的分类结果。

（1）目标特征为数字类型：取t个决策树的平均值作为分类结果。

（2）目标特征为类别类型：少数服从多数，取单棵树分类结果最多的那个类别作为整个随机森林的分类结果。

3. 分类效果的评价

在随机森林中，无需交叉验证来评价其分类的准确性，随机森林自带OOB（out-of-bag）错误估计：

OOB：在构造单棵决策树时我们只是随机有放回的抽取了N个样例，所以可以用没有抽取到的样例来测试这棵决策树的分类准确性，这些样例大概占总样例数目的三分之一。

所以对于每个样例j，都有大约三分之一的决策树（记为SetT（j））在构造时没用到该样例，我们就用这些决策树来对这个样例进行分类。我们对于所有的训练样例 j，用SetT（j）中的树组成的森林对其分类，然后看其分类结果和实际的类别是否相等，不相等的样例所占的比例就是OOB错误估计。OOB错误估计被证明是无偏的。

决策树（DecisionTree）和随机森林（Random Forests）