Task03:详读西瓜书+南瓜书第4章

目录

  • 决策树
  • 决策树学习基本算法
  • 划分选择
    • 1.信息增益
      • 信息熵
      • 信息增益(information gain)
    • ①ID3决策树
    • 2.增益率
    • ②C4.5决策树
      • 启发式规则
    • 3.基尼指数
      • 基尼值
      • 基尼指数
      • ③CART决策树

决策树

决策树学习基本算法

Task03:详读西瓜书+南瓜书第4章_第1张图片

划分选择

Task03:详读西瓜书+南瓜书第4章_第2张图片
决策树学习的关键就是 如何进行划分 。
如图所示,划分选择有三种划分方式。基于“信息增益”的划分,基于“增益率”的划分,基于“基尼指数”的划分。
三种划分方式对应了三种著名的决策树学习算法
信息增益:ID3决策树
增益率:C4.5决策树
基尼指数
:CART决策树
先了解一些什么是“信息增益”,“增益率”,“基尼指数”

1.信息增益

信息熵

定义:
Task03:详读西瓜书+南瓜书第4章_第3张图片
信息熵的值越小,D的纯度越高

信息增益(information gain)

Task03:详读西瓜书+南瓜书第4章_第4张图片
通过这个公式计算出用属性a对样本集D 进行划分所获得的“信息增益”。
信息增益 越大,则说明使用属性a来进行划分所获得的“纯度提升”越大。

ID3决策树学习算法就是以“信息增益”为标准来选择划分的属性。

①ID3决策树

Task03:详读西瓜书+南瓜书第4章_第5张图片

根据西瓜书上的例子手写出划分步骤
步骤:
1.计算出根结点的信息熵Ent(D)
2.属性集合{色泽,根蒂,敲声,纹理,脐部,触感},计算每个属性的信息增益
3.比较所有属性的信息增益。增益最大的被选为划分属性。如书中例子,纹理被选为根结点。
4.然后对每个分支结点都进行进一步的划分。

2.增益率

增益率定义;
在这里插入图片描述
其中
在这里插入图片描述
信息增益的缺点:信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,可使用“增益率”来选择最优划分属性,著名的 C4.5 决策树算法就是如此。
增益率的缺点:增益率准则对可取数组数目较少的属性有所偏好。

②C4.5决策树

显然,使用信息增益有缺点,但直接使用增益率也有缺点。C4.5决策树算法不是直接选择增益率最大的候选划分属性。

启发式规则

:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的属性。

3.基尼指数

基尼值

定义:
Task03:详读西瓜书+南瓜书第4章_第6张图片

基尼指数

定义:Task03:详读西瓜书+南瓜书第4章_第7张图片

③CART决策树

CART决策树使用“基尼指数”来选择划分属性。
在候选属性集合中选择那个使得划分后基尼指数最小的属性作为最优划分属性。

后续还有西瓜书后面几个小节没看,减枝处理、连续与缺失值等。

你可能感兴趣的:(吃瓜教程,机器学习,算法,人工智能)