决策树2019-03-11

1. 两个关键流程:

    1. 1怎么选择一个特征,做分裂,其依据是什么?

    1.2 怎么停止,停止分裂的依据是什么?


关于1.1, ID3, C4.5, CART有不同的依据(损失函数)

ID3 用 信息增益

C4,5 用信息增益率

CART 用Gini


关于1.2, 停止分裂依据

      (1)最小节点数

  当节点的数据量小于一个指定的数量时,不继续分裂。两个原因:一是数据量较少时,再做分裂容易强化噪声数据的作用;二是降低树生长的复杂性。提前结束分裂一定程度上有利于降低过拟合的影响。

    (2)熵或者基尼值小于阀值。

     由上述可知,熵和基尼值的大小表示数据的复杂程度,当熵或者基尼值过小时,表示数据的纯度比较大,如果熵或者基尼值小于一定程度数,节点停止分裂。

  (3)决策树的深度达到指定的条件

   节点的深度可以理解为节点与决策树跟节点的距离,如根节点的子节点的深度为1,因为这些节点与跟节点的距离为1,子节点的深度要比父节点的深度大1。决策树的深度是所有叶子节点的最大深度,当深度到达指定的上限大小时,停止分裂。

  (4)所有特征已经使用完毕,不能继续进行分裂。

额外注意:

CART 是二叉树,无论连续特征离散化的方式,还是多类离散特征,均是切一刀。

CART 也可以做回归树,此时用方差做分裂依据。


https://www.cnblogs.com/yonghao/p/5135386.html

你可能感兴趣的:(决策树2019-03-11)