一、ID3算法

ID3算法是根据“最大信息熵增益”原则选择划分当前数据集的最好特征。

（信息熵）

建立决策树的过程中，根据特征属性划分数据，使得数据的“混乱度”降低，按照不同特征划分数据熵减少的程度不一样。

ID3算法中选择熵减少程度最大的特征来划分数据，即“最大信息熵增益”原则。

（信息增益）

缺点：

1. ID3没有考虑连续特征，比如长度、密度都是连续值，无法在ID3运用，限制了ID3的使用范围；

2. 倾向于可取值数目较多的属性；

3. ID3算法对于缺失值的情况没有做考虑；

4. 没有考虑过过拟合的问题。

原因：

信息增益反映的是给定一个划分条件后不确定性减少的程度（或纯度提升的程度），因此必然是得分越细的数据集确定性更高，信息增益越大。

二、C4.5算法

C4.5算法流程与ID3相类似，只不过将信息增益改为信息增益比，以解决偏向取值较多的属性的问题，另外它可以处理连续型属性。

（信息增益比）

（属性a的固有值）

属性a的取值数目越多（即v越大），则IV(a)的值通常越大，平衡了不同取值数目的信息增益。

缺点：

1. 在树构造过程中，C4.5由于使用了熵模型，里面有大量的耗时的对数运算，如果是连续值还有大量的排序运算，需要对数据集进行多次的顺序扫描和排序，因而导致算法效率降低。

2. C4.5算法只适用于能够驻留于内存的数据集，当训练集大于内存容量时，程序则无法运行。

3. C4.5生成的是多叉树，即一个父节点可以有多个节点。很多时候，在计算机中二叉树模型会比多叉树运算效率高。如果采用二叉树，可以提高效率。

优点：

属性变量可以是连续型的。

需要注意的是，增益率准则对可取值数目较少的属性有所偏好。因此，C4.5算法并不是直接选择“信息增益率”最大的候选划分属性，而是使用了一个“启发式”：先从候选划分属性中找出“信息增益”高于平均水平的属性，再从中选择“信息增益率”最高的作为划分属性。

三、CART算法

1. CART分类树算法的最优特征选择方法

在ID3算法中使用了信息增益来选择特征，信息增益大的优先选择。在C4.5算法中，采用了信息增益比来选择特征，以减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5都是机遇信息论的熵模型的，这里面会世纪大量的对数运算。

能不能简化模型的同时也不至于完全丢失熵模型的优点呢？

CART分类树算法使用基尼系数来代替信息增益比，基尼系数代表了模型的不纯度，基尼系数越小，则不纯度越低，特征越好。这和信息增益（比）是相反的。

CART是一棵二叉树，采用二元切分法，每次把数据切成两份，分别进入左子树、右子树。而且每个非叶子结点都有两个孩子，所以CART的叶子结点比非叶子结点多1.

相比ID3和C4.5，CART应用要多一些，既可以用于分类也可以用于回归。CART分类时，使用基尼系数（Gini）来选择最好的数据分割特征，Gini描述的是纯度，与信息熵的含义相似。CART中每一次迭代都会降低Gini系数。

$Gini(D) = \sum\nolimits_{k=1}^{\vert Y \vert}\sum\nolimits_{k’ \neq k}p_{k}p_{k}’=\sum\nolimits_{k=1}^{\vert Y \vert}\sum\nolimits_{k’ \neq k}p_{k} \cdot (1-p_{k})=1- \sum\nolimits_{k=1}^{\vert Y \vert}p_{k}^2$

如果是二类分类问题，计算就更加简单了，如果属于第一个样本输出的概率是p，则基尼系数的表达式为：

对于给定的样本D，假设有K个类别，第k个类别的数量为，则样本D的基尼系数表达式为：

Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。Gini(D)越小，则数据集D的纯度越高。

属性a的基尼指数定义为：

特别的，对于样本D，如果根据特征A的某个值a，把D分为D1和D2两个部分，则在特征A的条件下，D的基尼系数表达式为：

因此在候选划分属性中，选择使得划分后基尼系数最小的属性作为最优划分属性。

但是基尼系数的二次运算要比熵模型的对数运算简单得多。尤其是二类分类，则更加简单。

和熵模型的度量方式比，基尼系数的误差是怎样的？对于二类分类，基尼系数和熵之半曲线如下：

分类误差率对比

从上图可以看出，基尼系数和熵之半的曲线非常接近，仅在45度角附近误差稍大。因此，基尼系数可以作为熵模型的一个近似替代。而CART分类树算法就是使用的基尼系数来选择决策树的特征。同时，为了进一步简化，CART分类树算法每次仅仅对某个特征的值进行二分，而不是多分，这样CART分类树建立起来的是二分树，而不是多叉树。这样一是可以进一步简化基尼系数的计算，二是可以建立一个更加优雅的二叉树模型。

基尼不纯度指标：

在CART算法中，基尼不纯度表示一个随机选中的样本在子集中被分错的可能性；基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时，基尼不纯度为0.

2. CART分类树算法对于连续特征和离散特征处理的改进

对于CART分类树连续值的处理问题，思想和C4.5相同，都是将连续的特征离散化。唯一的区别在于选择划分点时的度量方式不同，C4.5使用的是信息增益比，则CART分类树使用的基尼系数。

具体的思路如下，如m个样本的连续特征A有m个，从小到大排列为，则CART算法取相邻两样本值的平均数，一个取得m-1个划分点，其中第i个划分点表示：。对于这m-1个点，分别计算以该点作为二元分类点时的基尼系数。选择基尼系数最小的点最为连续特征的二元离散分类点。比如渠道的基尼系数最小的点为，则小于的值为类别1，大于的值为类别2，这样我们就做到了连续特征的离散化。要注意的是，与ID3或者C4.5处理离散属性不同的是，如果当前节点为连续属性，则该属性后面还可以参与子节点的产生选择过程。

对于CART分类树离散值的处理问题，采用的思路是不停的二分离散特征。

对比ID3和C4.5：

如果某个特征A被选取建立决策树节点，如果它有A1,A2,A3三种类别，我们会在决策树上一次建立一个三叉街店，这样导致决策树是多叉树。但是CART分类树使用的方法不同，它采用的是不停的二分，CART分类树会考虑把A分成{A1}和{A2, A3}, {A2}和{A1, A3}, {A3}和{A1, A2}三种，找到基尼系数最小的组合，比如{A1}和{A2, A3}，然后建立二叉树节点，一个节点是A1对应的样本，另一个节点是A2和A3对应的样本。同时，由于这次没有把特征A的取值完全分开，后面我们还有机会在子节点继续选择到特征A来划分A1和A3。这和ID3或者C4.5不同，在ID3或者C4.5的一棵子树中，离散特征只会参加一次节点的建立。

3. CART分类树建立算法的具体流程

算法输入：训练集D，基尼系数的阈值，样本个数的阈值。

输出：决策树T。

算法从根结点开始，用训练集递归的建立CART树。

a. 对于当前节点的数据集为D，如果样本个数小于阈值或者没有特征，则返回决策子树，当前节点停止递归。

b. 计算样本集D的基尼系数，如果基尼系数小于阈值，则返回决策子树，当前节点停止递归。

c. 计算当前节点现有的各个特征的各个特征值对数据集D的基尼系数，对离散值和连续值进行处理。

d. 在计算出来的各个特征的各个特征值对数据集D的基尼系数中，选择基尼系数最小的特征A和对应的特征值a。根据最优特征和最优特征值，把数据集划分为两部分D1和D2，同时建立当前节点的左右节点，左节点的数据集为D1，右节点的数据集为D2。

e. 对于左右的子节点递归的调用前4步，生成决策树。

对于生成的决策树做预测的时候，加入测试集里的样本A落到了某个叶子结点，而节点里有多个训练样本。则对于A的类别预测采用的是叶子结点里概率最大的类别。

4. CART回归树建立算法

CART回归树和分类树的建立算法大部分是类似的，这里只讨论不同的地方。

分类树与回归树不同的地方在于样本输出，如果样本输出时离散值，那么是一棵分类树，如果是连续值，是回归树。

主要区别有下面两点：

1.连续值的处理方法不同

2.决策树建立后做预测的方式不同

对于连续值的处理，我们知道CART分类树采用的是基尼系数的大小来度量特征的哥哥划分点的优劣情况。这比较适合分类模型，但是对于回归模型，使用了常见的和方差的度量方式，CART回归树的度量目标是，对于任意划分特征A，对应的任意划分点s两边划分成的数据集D1和D2，求的D1和D2个字的集合的均方差最小，同时D1和D2的均方差只和最小所对应的特征和特征值划分点。表达式为：

其中，c1为D1数据集的样本输出均值，c2为D2数据集的样本输出均值。

对于决策树建立后做预测的方式，上面讲到了CART分类树采用叶子结点里概率最大的类别作为当前节点的预测类别。而回归树输出的不是类别，它采用的是用叶子的均值或者中位数来预测输出结果。

5. CART算法小结

CART算法相比C4.5算法的分类方法，采用了简化的二叉树模型，同时特征选择采用了近似的基尼系数来简化计算。当然CART树最大的好处是还可以做回归模型，这个C4.5没有。下表给出了ID3，C4.5和CART的一个比较总结。

本文链接：https://blog.csdn.net/qq_43468807/article/details/105969232

决策树的三种算法