11.C.5

1.经验熵

    随机变量X概率分布:P(X =xi) =pi, i =l,2, ... ,n(n为X的类别数)
    随机变量X的熵(信息熵):

信息熵

2.经验条件熵

条件熵H(Y|X):表示在已知随机变量X的条件下随机变量Y的不确定性,即X给定的条件下随机变量Y的条件熵。


条件熵

H(Y)又称为经验熵,H(Y | X)又称为经验条件熵。

3.信息增益

特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定下D的经验条件熵H(D | A)之差。
信息增益越大,则特征A具有越强的分类能力。


信息增益

4.信息增益比

    信息増益值的大小是相对于训练数据集而言的,并没有绝对意义.在分类问题困难时,也就是说在训练数据集的经验熵大的时候,信息増益值会偏大。反之,信息増益值会偏小。使用信息増益比可以对这一问题进行校正。这是特征选择的另一准则。
    特征A对训练数据集D的信息增益比gR(D, A)定义为其信息增益g(D, A)与训练数据集D关于A的值的熵HA(D)之比。


信息增益比

其中,

n为特征A所取值的个数。

5.剪枝

目标,极小化损失函数。


损失函数

其中,

信息熵

参数介绍:

设树T的叶节点个数为| T |
t为树T的某一叶节点
该叶节点上有Nt样本点;
这些样本点共分k类每类个数为Ntk个;
α>=0,为参数,控制模型对训练数据拟合度C(T)和模型复杂度
      | T |在损失函数中的占比:
        (1)α越大,树越简单,泛化越好,但训练拟合越差;
        (2)α越小,树越复杂,泛化越差,但训练拟合越好。


你可能感兴趣的:(11.C.5)