统计学习方法 第二版 读书笔记_第五章 决策树

第五章 决策树

5.1 决策树模型与学习

决策树学习通常包括3个步骤: 特征选择, 决策树的生成和决策树的修剪

5.1.1 决策树模型

https://www.bilibili.com/video/BV1RC4y1p7wX?p=3

定义5.1 决策树

5.1.2 决策树与if-then规则

https://www.bilibili.com/video/BV1RC4y1p7wX?p=4

5.1.3 决策树与条件概率分布

https://www.bilibili.com/video/BV1RC4y1p7wX?p=5

5.1.4 决策树学习

https://www.bilibili.com/video/BV1RC4y1p7wX?p=6

决策树生成学习局部的模型,而决策树剪枝学习整体的模型。

5.2 特征选择

5.2.1 特征选择问题

https://www.bilibili.com/video/BV1RC4y1p7wX?p=7

5.2.2 信息增益

https://www.bilibili.com/video/BV1RC4y1p7wX?p=8
https://www.bilibili.com/video/BV1RC4y1p7wX?p=9

熵和信息熵的定义
可参考王木头视频

https://www.bilibili.com/video/BV15V411W7VB

信息增益
定义5.2 信息增益

互信息(mutual information) - 熵与条件熵之差
算法5.1 信息增益算法

5.3.3 信息增益比

https://www.bilibili.com/video/BV1RC4y1p7wX?p=11

5.3 决策树的生成

5.3.1 ID3算法

https://www.bilibili.com/video/BV1RC4y1p7wX?p=12

算法5.2 ID3算法
ID3算法只有树的生成, 所以该算法生成的树容易产生过拟合

5.3.2 C4.5的生成算法

https://www.bilibili.com/video/BV1RC4y1p7wX?p=13

5.4 决策树的剪枝

https://www.bilibili.com/video/BV1RC4y1p7wX?p=14

算法5.4 树的剪枝算法

动态规划

https://www.bilibili.com/video/BV1AB4y1w7eT
https://www.bilibili.com/video/BV1ET4y1U7T6

5.5 CART算法

classification and regression tree

https://www.bilibili.com/video/BV1RC4y1p7wX?p=15

CART算法由以下两步组成:
(1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;
(2)决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。

5.5.1 CART生成

https://www.bilibili.com/video/BV1RC4y1p7wX?p=16
https://www.bilibili.com/video/BV1RC4y1p7wX?p=17

算法5.5 最小二乘回归树生成算法
定义5.4 基尼系数
Gini系数越大, 样本不确定性越大, 这点与熵相似

算法5.6 CART生成算法

https://www.bilibili.com/video/BV1RC4y1p7wX?p=18
https://www.bilibili.com/video/BV1RC4y1p7wX?p=19

5.5.2 CART剪枝

https://zhuanlan.zhihu.com/p/76709712

本章概要

  1. 分类决策树模型是表示基于特征对实例进行分类的树形结构. 决策树可以转换成一个if-then规则的集和, 也可以看做是定义在特征空间划分上的类的条件概率分布.
  2. 决策树学习旨在构建一个与训练数据拟合很好, 并且复杂度小的决策树. 因为从可能的决策树中直接选取最优决策树是NP完全问题. 现实中采用启发式方法学习次优的决策树.
    决策树学习算法包括3部分: 特征选择, 树的生成和树的剪枝. 常用的算法有ID3, C4.5, CART.
  3. 特征选择的目的在于选取对训练数据能够分类的特征. 特征选择的关键是其准则. 常用的准则如下:
    1. 样本集合D对特征A的信息增益(ID3)
      g ( D , A ) = H ( D ) − H ( D ∣ A ) H ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ l o g 2 ∣ C k ∣ ∣ D ∣ H ( D ∣ A ) = ∑ i = 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) g(D,A)=H(D)-H(D|A) \\ H(D)=-\sum\limits^K_{k=1}\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|} \\ H(D|A)=\sum\limits^n_{i=1}\frac{|D_i|}{|D|}H(D_i) g(D,A)=H(D)H(DA)H(D)=k=1KDCklog2DCkH(DA)=i=1nDDiH(Di)
      其中, H ( D ) H(D) H(D)是数据D的熵, H ( D i ) H(D_i) H(Di)是数据集 D i D_i Di的熵, H ( D ∣ A ) H(D|A) H(DA)是数据集D对特征A的条件熵. D i D_i Di是D中特征A取第i个值的样本子集, C k C_k Ck是D中属于第k类的样本子集, n是特征A取值的个数, K是类的个数
    2. 样本集合D对特征A的信息增益比(C4.5)
      g R ( D , A ) = g ( D , A ) H A ( D ) g_R(D,A)=\frac{g(D,A)}{H_A(D)} gR(D,A)=HA(D)g(D,A)
      其中, g ( D ∣ A ) g(D|A) g(DA)是信息增益, H A ( D ) H_A(D) HA(D)是D关于特征A的值的熵
    3. 样本集合D的基尼指数(CART)
      G i n i ( D ) = 1 − ∑ k = 1 K ( ∣ C k ∣ ∣ D ∣ ) 2 Gini(D)=1-\sum\limits^K_{k=1}(\frac{|C_k|}{|D|})^2 Gini(D)=1k=1K(DCk)2
      特征A条件下集合D的基尼指数:(二分类)
      G i n i ( D , A ) = ∣ D 1 ∣ ∣ D ∣ G i n i ( D 1 ) + ∣ D 2 ∣ ∣ D ∣ G i n i ( D 2 ) Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2) Gini(D,A)=DD1Gini(D1)+DD2Gini(D2)
  4. 决策树的生成. 通常使用信息增益最大, 信息增益比最大或基尼指数最小作为特征选择的标准. 决策树的生成往往通过计算信息增益或其他指标, 从根节点开始, 递归的产生决策树. 这相当于用信息增益或其他准则不断的选取局部最优的特征, 或将训练集分割为能够基本准确分类的子集.
  5. 决策树的剪枝. 由于生成的决策树存在过拟合问题, 需要对它进行剪枝, 以简化学到的决策树. 决策树的剪枝, 往往从已生成的树上减掉一些叶节点或叶节点以上的子树, 并将其父节点或根节点作为新的叶节点, 从而简化生成的决策树.

你可能感兴趣的:(统计学习,决策树,学习,机器学习)