吃瓜笔记---第四章 决策树

注:本文只是本人阅读西瓜书及南瓜书的阅读笔记和心得,可能只有自己能看懂,鉴于本人水平有限,有极大可能出现错误,欢迎读者批评指正 

        决策树的学习通常包括3个部分:特征选择、决策树的生成、决策树的修剪

1、信息增益

自信息:I(x)=-log_bp(x) 

自信息期望:H(x)=E(I(x))=-\sum_{x}^{}p(x)log_bp(x)  离散情况

                      H(x)=(I(x))=-\int _xp(x)log_bp(x)      连续情况

信息熵(information entroy) :

Ent(D)=-\sum_{k=1}^{|y|}p_klog_2p_k

     信息熵就是自信息的期望,Ent(D)的值越小,D的纯度就越高,对于结果的预测准确性就越大。

信息增益(information gain):

Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)

        其中 Ent(D)表示样本集整体的信息熵,D^v表示D中的一个子集a上对该属性的不同取值(其值取1,2,...V),Ent(D^v)表示该子集的信息熵。

        信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升最大”

2、增益率

Gain_ratio(D,a)=\frac{Gain(D,a)}{IV(a)},

其中                                             IV(a)=-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}

        由于信息增益中的-\sum_{v=1}^{V}\frac{|D^v|}{D}Ent(D^v)会使得最终提纯的结果会对可取值数目较多的属性有所偏好,为了减少这种偏好所带来的影响,使用的增益率来选择最优化分属性
 

3、基尼系数(Gini index)

        基尼系数反应了从数据集D中随机抽取两个样本,其类别标记不一致的概率。其值越小,纯度越高

Gini(D)=\sum_{k=1}^{|y|}\sum_{k^*\neq k}^{}p_kp_{k^*} =1-\sum_{k=1}^{|y|}p^2_k

Gini\_index(D,a)=\sum_{v=1}^{V}\frac{|D^v|}{|D|}Cini(D^v)

4、剪枝处理

        剪枝处理是为了防止过拟合而采取的一种手段,其基本策略包括“预剪枝”和“后剪枝”。

预剪枝(prepruning):

        指在决策树生成的过程中,对每个节点在划分前先进行预估,若当前节点不能带来决策树泛华性能上的提升,则停止划分并将当前节点标记为叶节点

后剪枝(postpruning):

        指先从训练集生成一颗完整的决策树,然后自底向上地对非叶子节点进行考察,若将该节点对应地子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶节点。

        后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情况下,后剪枝决策树的欠拟合风险较小,泛化性能往往优于预剪枝决策树。但是后剪枝决策树的开销更大。

(后续更新。。。)

你可能感兴趣的:(决策树,算法,机器学习)