1.经验熵
随机变量X概率分布:P(X =xi) =pi, i =l,2, ... ,n(n为X的类别数)
随机变量X的熵(信息熵):
2.经验条件熵
条件熵H(Y|X):表示在已知随机变量X的条件下随机变量Y的不确定性,即X给定的条件下随机变量Y的条件熵。
H(Y)又称为经验熵,H(Y | X)又称为经验条件熵。
3.信息增益
特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定下D的经验条件熵H(D | A)之差。
信息增益越大,则特征A具有越强的分类能力。
4.信息增益比
信息増益值的大小是相对于训练数据集而言的,并没有绝对意义.在分类问题困难时,也就是说在训练数据集的经验熵大的时候,信息増益值会偏大。反之,信息増益值会偏小。使用信息増益比可以对这一问题进行校正。这是特征选择的另一准则。
特征A对训练数据集D的信息增益比gR(D, A)定义为其信息增益g(D, A)与训练数据集D关于A的值的熵HA(D)之比。
其中,
n为特征A所取值的个数。
5.剪枝
目标,极小化损失函数。
其中,
参数介绍:
设树T的叶节点个数为| T |;
t为树T的某一叶节点;
该叶节点上有Nt个样本点;
这些样本点共分k类,每类个数为Ntk个;
α>=0,为参数,控制模型对训练数据拟合度C(T)和模型复杂度
| T |在损失函数中的占比:
(1)α越大,树越简单,泛化越好,但训练拟合越差;
(2)α越小,树越复杂,泛化越差,但训练拟合越好。