快速简单的理解决策树

发现很多解释决策树的文章都讲的比较复杂,这里就分享下对决策树的理解,希望大家能快速简单的理解决策树这回事。

一.决策树在干一件什么事

你有一堆数据,多个自变量,1个因变量。决策树某种程度上和其他线性回归方法没有什么区别,通过决策树,

你想知道,哪个自变量更影响因变量;

你想知道,输入新的自变量,能够获得因变量的预测值。

那么决策树是如何实现你的目标的呢?

1.先列举某个自变量所有可能的划分条件,依次比较各个划分条件下,因变量获得的分组差异的大小。

比如,这个自变量是15岁以下,16-65岁,65岁以上,首先,按照15岁以下和15岁以上分组这种划分,评估相应的因变量分组情况。其次,按照16-65岁之间和非16-65岁这种划分,评估相应的因变量分组情况。第三,按照65岁以下和65岁以上划分,评估相应的因变量分组情况。

按照这个自变量的某种划分(上面所举例子中的自变量是三种划分,三选一),因变量分组情况,组间差异最大,组内差异最小的就是这个自变量的最优划分(有一个评估指标专门评估最优划分,下面会讲)。

2.每个自变量都要按照上面的情况计算一遍,并记录每个自变量最优划分,和最优划分对应的因变量分组情况(评估指标的值)。

3.比较所有自变量的最优划分,选择其中最优的那个。作为第一次划分。

4.剩下的所有变量的其他划分方法继续比较,选出第二次、第三次、第N次划分。但是每次划分都是剩余的变量里,剩余的划分方法里最优的那个。

回到开头的问题,“你也想知道,哪个自变量更影响因变量”,当然是能够将因变量分组分得好的自变量,是最影响因变量的,理所当然,利用这些自变量的划分来预测因变量也是更为准确的。

二.决策树怎么干的这件事(决策树不同衡量指标)

第一点讲到,有一个评估指标专门在评估因变量的划分情况,这个指标在决策树里面大致有三种。

1.熵,每次划分我们都选择和上一次划分相比,熵减少最大的那种,是最优划分。使用熵度量的决策树算法被称为ID3。

2.信息增益率,就是熵再除以维度作为评估指标,每次划分我们都选择和上一次划分相比,信息增益率最大的那种,是最优划分。使用信息增益率的决策树算法被称为C4.5。

3.基尼系数,使用基尼系数的决策树算法被称为CART。它也是随机森林的基本分类树。基尼系数在计算机编程过程中比信息增益率这个指标计算方法来得简单,效率更高,而且它同时也能有效率的评估最优的划分。

三.注意

1.分类变量还是连续变量(定距变量)

决策树不仅能处理分类变量,也能处理连续变量。决策树处理连续变量的方法就是对连续变量进行离散化。比如,你有n个连续变量,CART算法取相邻两样本值的平均数作为划分点,这样一共可以取得n-1个划分点。

2.决策树的优缺点

优点:根据树的情况,可以清楚的知道各个划分点,能更好的进行因果解释,这点和其他机器学习算法是有显著区别的。比如,随机森林这个机器学习算法,只能知道哪个自变量对预测的贡献最大,而具体划分点是哪个,随机森林模型是无法告诉你的。

缺点:容易过拟合。

(未完待续)

你可能感兴趣的:(快速简单的理解决策树)