决策树(decision tree):是一种基本的分类与回归方法,下面提到的ID3、C4.5、CART主要讨论分类的决策树。
在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。
决策树通常有三个步骤:
优点:
缺点:
决策树模型在监督学习中非常常见,决策树是一个非常常见并且优秀的机器学习算法,它易于理解、可解释性强,其可作为分类算法,也可用于回归模型。本文主要介绍常用的基本树(包括 ID3、C4.5、CART)。一般而言一棵“完全生长”的决策树包含,特征划分、决策树构建、剪枝三个过程。
在介绍决策树之前我们先了解一下“纯度”的概念:
决策树的构建是基于样本概率和纯度进行构建操作的,判断数据集“纯”的指标有:Gini指数、信息熵、不确定性、错误率、标准方差。他们的值越小,说明越“纯”。并且他们有以下关系:
信息熵:可以理解为衡量不确定性的指标。
Gini指数:可以理解为衡量错误率的指标。
下面开始介绍一下常用的三种算法ID3、C4.5、CART。
划分标准:ID3选用使得信息增益最大(纯度提升)的那个特征作为决策节点来划分样本。
ID3算法的三个基本概念和通俗的理解:
信息熵(entropy): 表示随机变量的不确定性。
条件熵(Conditional Entropy): 在一个条件下,随机变量的不确定性。
信息增益(Information Gain): 信息增益=信息熵 - 条件熵。表示在一个条件下,信息不确定性减少的程度(纯度提升)。
ID3算法缺点:
由于上述缺点,如今几乎没人再使用ID3,但是信息增益的概念是重要的。
划分标准:C4.5算法选用使得信息增益率(gain ratio)最大的那个特征作为决策节点来划分样本。
因为ID3算法中选用信息增益来作为决策树的生成策略,导致了生成过程中倾向于使用属性值多的特征来划分样本,为了克服这一缺点。引进了信息增益率(信息增益比)的概念。
C4.5算法相对于ID3算法主要有以下几个改进:
CART(classification and regression tree),分类回归树,它既可以用来解决分类问题也可以用来解决回归问题。
划分标准:使用使得gini系数最小的那个属性来划分样本。
基尼系数:(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。
注意:Gini系数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本只有一个类时,基尼系数为0.
CART 在 C4.5 的基础上进行了很多提升:
简单总结一下CART:
通过前面的介绍我们知道了,基本树ID3、C4.5、CART都是采用“纯度”来做特征选择。它们的思路都相近,得到的模型性能也比较接近。
那么问题来了:基尼指数与熵模型性能接近,但到底与熵模型的差距有多大呢?
我们知道 ln(x) = -1 + x + o(x),所以:
我们可以将基尼指数理解为熵模型的一阶泰勒展开,下面放上一张很经典的图。
剪枝是应该决策树过拟合的一种重要方法,主要分为以下两种:
预剪枝:该策略就是在对一个节点进行划分前进行估计,如果不能提升决策树泛化精度,就停止划分,将当前节点设置为叶节点。那么怎么测量泛化精度,就是留出一部分训练数据当做测试集,每次划分前比较划分前后的测试集预测精度。
简单来说预剪枝就是在完全正确分类训练集之前,较早地停止树的生长。 具体在什么时候停止决策树的生长有多种不同的方法:
预剪枝的优缺点:
优点:降低了过拟合风险,降低了训练所需的时间。
缺点:预剪枝是一种贪心操作,可能有些划分暂时无法提升精度,但是后续划分可以提升精度。故产生了欠拟合的风险。
后剪枝:该策略是首先正常建立一个决策树,然后对整个决策树进行剪枝。按照决策树的广度优先搜索的反序,依次对内部节点进行剪枝,如果将某以内部节点为根的子树换成一个叶节点,可以提高泛化性能,就进行剪枝。
优点:降低过拟合风险,降低欠拟合风险,决策树效果提升比预剪枝强
缺点:时间开销大得多
常用的后剪枝方法:
CART(Classification and Regression Tree,分类回归树),从名字就可以看出其不仅可以用于分类,也可以应用于回归。其回归树的建立算法上与分类树部分相似,这里简单介绍下不同之处。
所谓回归树,就是用树模型做回归问题,每一片叶子都是一个预测值,预测值一般是叶子节点所含训练集元素输出的均值。
划分标准:使用标准差/方差小的那个特征属性来划分样本。
回归树对连续值的处理:
对于连续值的处理,CART 分类树采用基尼系数的大小来度量特征的各个划分点。在回归模型中,我们使用常见的和方差度量方式,对于任意划分特征 A,对应的任意划分点 s 两边划分成的数据集D1 和D2 ,求出使D1 和 D2 各自集合的均方差最小,同时 D1 和D2 的均方差之和最小所对应的特征和特征值划分点。表达式为:
其中,c1 为 D1 数据集的样本输出均值,c2 为 D2数据集的样本输出均值。
回归树的预测方式:
对于决策树建立后做预测的方式, CART 分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果。
https://blog.csdn.net/qq_43391414/article/details/109382789
https://zhuanlan.zhihu.com/p/85731206