决策树相关公式

ID3:
使用信息增益或者互信息进行特征选择。取值多的属性,能让数据更纯,信息增益更大。
C4.5:
信息增益率
CART:
基尼指数

属性的信息增益或者基尼指数越大,就是属性对样本的熵减少能力越强,这个属性使得数据由不确定性变成确定性的能力强。
经验熵:
在这里插入图片描述
经验条件熵:
决策树相关公式_第1张图片
信息增益:
在这里插入图片描述
信息增益率:
在这里插入图片描述

基尼系数:
将f(x)=-lnx在x=1处一阶展开,忽略高阶无穷小,得到f(x)≈1-x
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
决策树相关公式_第2张图片

给定M个样本,计算样本最大值max和最小值min, 等分成N份,计算每份的样本数目xi(i=1,2,…,N),则 每份的近似概率为
在这里插入图片描述
计算累积概率:
在这里插入图片描述
注:
在这里插入图片描述
画图:
决策树相关公式_第3张图片
在这里插入图片描述
决策树相关公式_第4张图片
基尼系数:
在这里插入图片描述
决策树的评价:
样本的总类别为K个,对决策树的某叶结点,如果该叶结点含有样本数目为n,其中第k类的样本点数目为nk,k=1,2,…,K。
纯结点:若某类样本nj=n而n1,…,nj-1,nj+1,…,nK=0
均结点:若各类样本数目n1=n2=…=nk=n/K
求和所有叶结点的熵,越小说明对样本的分类就会越准确
如果叶结点包含的样本数目不同,样本数加权求熵和

纯结点的熵最小:
在这里插入图片描述
均结点的熵最大:
在这里插入图片描述
评价函数也称为损失函数:
在这里插入图片描述

剪枝:
从完全树T0开始,然后开始剪枝部分结点得到树T1,然后继续剪枝部分结点得到树T2…一直到只剩树根的树Tk;最后在验证集上对这个k个树分别进行评价,去选择一个损失函数最小的树。
如果节点越多,这个决策树就会越复杂,损失函数越大,α称为结点r的剪枝系数。
当α=0时,单根结点的决策树损失最小:
在这里插入图片描述
当α=+∞时,未剪枝的决策树损失最小。

如果对以r为根的子树剪枝:
剪枝后,只保留r本身而删掉所有的叶子。

剪枝后的损失函数:
在这里插入图片描述
剪枝前的损失函数:
在这里插入图片描述
如果让前面俩个相等:
在这里插入图片描述
剪枝过程:
对于给定的决策树T0:
计算所有内部节点的剪枝系数;
查找最小剪枝系数的结点,剪枝得决策树Tk ;
重复以上步骤,直到决策树Tk只有1个结点;
得到决策树序列T0T1T2…TK ;
使用验证样本集选择最优子树。
使用验证集做最优子树的标准,可以使用评价函数:

你可能感兴趣的:(决策树,决策树)