决策树:ID3、C4.5、CART决策树生成算法

文章目录

  • 示例训练数据
  • ID3生成算法
  • C4.5生成算法
  • CART生成算法
    • 1. CART回归树的生成
    • 2. CART分类树的生成

示例训练数据

以如下数据集为例分别介绍决策树ID3、C4.5、CART的生成算法:
决策树:ID3、C4.5、CART决策树生成算法_第1张图片

ID3生成算法

决策树:ID3、C4.5、CART决策树生成算法_第2张图片
决策树:ID3、C4.5、CART决策树生成算法_第3张图片
例题:利用训练数据集,用ID3算法建立决策树。
决策树:ID3、C4.5、CART决策树生成算法_第4张图片
ID3算法只有树的生成,所以该算法生成的树容易产生过拟合。

C4.5生成算法

C4.5与ID3类似,但有一点不同,C4.5在生成的过程中使用了信息增益比来选择特征。
决策树:ID3、C4.5、CART决策树生成算法_第5张图片

CART生成算法

CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”。左分支“是”,右分支“否”。

与ID3和C4.5只有决策树的生成不同的是,CART算法由以下两步组成:
(1)决策树生成:基于训练数据集生成一棵尽量大的决策树。
(2)决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。

在此文章,只叙述关于决策树生成的算法!

对回归树用平方误差最小化准则;对分类树用基尼指数最小化准则。生成二叉决策树。

1. CART回归树的生成

对于CART回归树的文字性解释如下:
决策树:ID3、C4.5、CART决策树生成算法_第6张图片
决策树:ID3、C4.5、CART决策树生成算法_第7张图片
算法叙述如下:
决策树:ID3、C4.5、CART决策树生成算法_第8张图片

2. CART分类树的生成

分类树用基尼系数选择最有特征,同时也决定该特征的最优二值切分点。因此,首先对基尼系数做如下符号说明:
决策树:ID3、C4.5、CART决策树生成算法_第9张图片
算法描述如下:
决策树:ID3、C4.5、CART决策树生成算法_第10张图片
特别的,对于基尼指数,有如下结论:
在这里插入图片描述
相应例题如下:
决策树:ID3、C4.5、CART决策树生成算法_第11张图片
决策树:ID3、C4.5、CART决策树生成算法_第12张图片
对于本问题,按照CART算法生成的决策树与按照ID3算法生成的决策树完全一致。

参考资料:

李航《统计学习方法》

你可能感兴趣的:(machine,learning)