西瓜书第四章

西瓜书第四章

4.1

1、自信息


I ( X ) = − l o g b   p ( x ) I(X)=-log_b\,p(x) I(X)=logbp(x)
​ 信息熵(自信息期望):度量X的不确定性,信息熵越大越不确定。是度量样本集合纯度最常用的一种指标。
H ( X ) = E [ I ( X ) ] = − ∑ x p ( x ) l o g b   p ( x ) H(X)=E[I(X)]=-\sum_{x}{p(x)log_b\,p(x)} H(X)=E[I(X)]=xp(x)logbp(x)

2、

  1. 决策树学习的目的是产生一颗泛化能力强,即处理未见示例能力强的决策树,基本流程遵循“分而治之”。

  2. 西瓜书第四章_第1张图片

    4.2

    1. 信息熵定义:
      E n t ( D ) = − ∑ k = 1 ∣ y ∣ p k   l o g 2   p k Ent(D)=-\sum_{k=1}^{|y|}p_k\,log_2\,p_k Ent(D)=k=1ypklog2pk
      样本D中第K类样本所占的比例为 P k P_k Pk(k=1,2…|y|)

      Ent(D)值越小,纯度越高。

    2. 计算样本划分后所提升的性能称为“信息增益”(information gain)。
      G a i n ( D , a ) = E n t ( D ) − ∑ v = 1 V E n t ( D v ) Gain(D,a)=Ent(D)-\sum_{v=1}^V{Ent(D^v)} Gain(D,a)=Ent(D)v=1VEnt(Dv)
      即为信息熵-条件熵(划分前-划分后)。

    3. 信息增益越大,意味着使用属性a来进行划分所获得的的“纯度提升”越大。

    4. 此称为ID3,对取值数目较多的有偏好

    5. 增益率:
      G a i n r a t i o ( D , a ) = G a i n ( D , a ) I V ( a ) Gain_ratio(D,a)=\frac{Gain(D,a)}{IV(a)} Gainratio(D,a)=IV(a)Gain(D,a)
      其中
      I V ( a ) = − ∑ v = 1 V l o g 2 D v D IV(a)=-\sum_{v=1}^{V}log_2\frac{D^v}{D} IV(a)=v=1Vlog2DDv
      称为C4.5,对可取值数目较少的属性有所偏好。

    6. 基尼指数:

      CART决策树,将数据划分为a=v和a!=v(所以一定是一颗二叉树)。
      G i n i ( D ) = ∑ k = 1 ∣ y ∣ ∑ k ′ ! = k p k p k ′ = ∑ k = 1 ∣ y ∣ p k ( 1 − p k ) = 1 − ∑ k = 1 ∣ y ∣ p k 2 Gini(D)=\sum_{k=1}^{|y|}\sum_{k'!=k}p_kp_{k'} =\sum_{k=1}^{|y|}p_k(1-p_k)=1-\sum_{k=1}^{|y|}p_k^2 Gini(D)=k=1yk!=kpkpk=k=1ypk(1pk)=1k=1ypk2

4.3

预剪枝是指在决策树生成过程中,对每个结点在划 分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划 分并将当前结点标记为叶结点;后剪枝则是先从训练集生成一棵完整的决策树, 然后自底向上地对非叶结点进行考察,若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升,则将该子树替换为叶结点.

4.4

我们需解决两个问题: (1) 如何在属性值缺失的情况 进行划分属性选择? (2) 给定划分属性?若样本在该属性上的值缺失,如何对样本进行划分?

(1)对属性表征无缺失值样本所占的比例 P k P_k Pk 表示无缺失值样本中 类所占的比例 , r v r_v rv 则表示无缺失值样本中在属性a上取值 a v a^v av的样本所占 的比例.

在这里插入图片描述

中在属性a上取值 a v a^v av的样本所占 的比例.

对问题(2) ,若样本x在划分属性a上的取值己知,则将x划入与其取值对应的子结点,且样本权值在于结点中保持为 w x w_x wx. 若样本x在划分属性a上的取值未知,则将x同时划入所有子结点,且样本权值在与属性值a对应的子结点中调整为 r v ∗ w v r_v*w_v rvwv(点乘)。

你可能感兴趣的:(决策树,算法)