西瓜书第四章总结

西瓜书第四章总结

  • 1.树的划分流程
  • 2. 树的划分选择
  • 3.如何对抗过拟合
  • 4.如何处理连续值与缺失值
  • CART分类树与回归树原理
  • 参考

1.树的划分流程

Alt

2. 树的划分选择

树的划分选择也即如何选择最优划分属性
常用三种划分规则:信息增益、信息增益率、基尼指数
ID3:采用信息增益划分数据,计算获得所有特征中信息增益最大的特征,用于划分数据集。不过信息增益准则对可取值数目较多的属性有所偏好
C4.5:为了减少信息增益准则带来的对偏好的影响,C4.5采用信息增益率划分数据,
Alt
其中,
Alt

称为属性a的固有值。一般可取值数目越多,固有值越大。增益率准则对可取值数目较少的属性会有所偏好,所以C4.5并不是采用增益率最大的属性进行划分,而是使用了一个启发式:先从候选划分属性中找出信息增益高于平均水平的属性,然后从中选择增益率最高的属性。
CART:采用基尼指数来选择划分属性。在候选的属性集合中,选择那个使得划分后基尼指数最小的属性作为最优划分属性。

3.如何对抗过拟合

预剪枝:比如基于信息增益,先选取信息增益最大的特征进行划分,而是否要进行这个划分要对划分前后的泛化性能进行估计。
后剪枝:先从训练集中生成一颗完整决策树,然后自底向上地对树中的所有非叶结点进行逐一考察,若将其领衔的分支剪除,是否提高泛化性能。

4.如何处理连续值与缺失值

处理连续值的手段:连续属性离散化
处理缺失值的手段:

CART分类树与回归树原理

分类树 李航老师书中是这样描述的:分类树用基尼指数选择最优特征,同时决定该特征的最优二值切分点。周志华老师书中这样描述用基尼指数划分决策树的:在候选属性集合A中,选择那个使得划分后基尼指数最小的属性作为最优划分属性。故我的理解是首先选择最优划分属性,然后选择最优划分属性中的最优划分点。
一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。分类树中,我们采用信息论中的方法,通过计算选择最佳划分点。而在回归树中,采用的是启发式的方法。假如我们有n个特征,每个特征有si(i∈(1,n))个取值,那我们遍历所有特征,尝试该特征所有取值,对空间进行划分,直到取到特征j的取值s,使得损失函数最小,这样就得到了一个划分点。
Alt
其中,
Alt

参考

[1]周志华.[机器学习]

你可能感兴趣的:(西瓜书)