决策树的分类准则

决策树的分裂准则

  • 一、ID3决策树——以信息增益为准则来选择划分属性的决策树
  • 二、C4.5决策树——以信息增益率为准则来选择划分属性的决策树
  • 三、CART决策树——以基尼指数为准则来选择划分属性的决策树

在具体介绍决策树的分类准则之前,首先了解信息熵和条件熵的定义:

信息熵——度量样本集合纯度最常用的一种指标,其定义如下: E n t ( D ) = − ∑ k = 1 ∣ y ∣ p k l o g 2 p k Ent(D)=-\sum_{k=1}^{|y|}p_klog_2p_k Ent(D)=k=1ypklog2pk 其中, D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x m , y m ) } D=\{(x_1,y_1),(x_2,y_2),\dots,(x_m,y_m)\} D={(x1,y1),(x2,y2),,(xm,ym)}表示样本集合, ∣ y ∣ |y| y表示样本类别总数, p k p_k pk表示第 k k k类样本所占的比例,且:
0 ≤ p k ≤ 1 , ∑ k = 1 ∣ y ∣ p k = 1. 0\le p_k\le 1,\sum_{k=1}^{|y|}p_k=1. 0pk1,k=1ypk=1. E n t ( D ) Ent(D) Ent(D)值越小,纯度越高。

条件熵——在已知样本属性a的取值情况下,度量样本集合纯度的一种指标,其定义如下: H ( D ∣ a ) = ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) H(D|a)=\sum ^V_{v=1}{|D^v|\over |D|}Ent(D^v) H(Da)=v=1VDDvEnt(Dv)其中,a表示样本的某个属性,假定属性a有V个可能的取值 { a 1 , a 2 , … , a V } \{a^1,a^2,\dots ,a^V\} {a1,a2,,aV}。样本集合D中在属性a上取值为 a v a^v av的样本记为 D v D^v Dv E n t ( D v ) Ent(D^v) Ent(Dv)表示样本集合 D v D^v Dv的信息熵。 H ( D ∣ a ) H(D|a) H(Da)值越大,纯度越高。

一、ID3决策树——以信息增益为准则来选择划分属性的决策树

信息增益:
G a i n ( D , a ) = E n t ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) = E n t ( D ) − H ( D ∣ a ) \begin{aligned}Gain(D,a)&=Ent(D)-\sum^V_{v=1}{|D^v|\over{|D|}}Ent(D^v)\\&=Ent(D)-H(D|a)\end{aligned} Gain(D,a)=Ent(D)v=1VDDvEnt(Dv)=Ent(D)H(Da)ID3决策树选择信息增益最大的属性作为划分属性,因为信息增益越大,意味着使用该属性来进行划分所获得的”纯度“提升越大。

但是,以信息增益为划分准则的ID3决策树对可取值数目较多的属性有所偏好:
G a i n ( D , a ) = E n t ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ E n t ( D v ) = E n t ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ ( − ∑ k = 1 ∣ y ∣ p k l o g 2 p k ) = E n t ( D ) − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ ( − ∑ k = 1 ∣ y ∣ ∣ D k v ∣ ∣ D v ∣ l o g 2 ∣ D k v ∣ ∣ D v ∣ ) \begin{aligned}Gain(D,a)&=Ent(D)-\sum^V_{v=1}{|D^v|\over{|D|}}Ent(D^v)\\ &=Ent(D)-\sum^V_{v=1}{|D^v|\over{|D|}}(-\sum^{|y|}_{k=1}p_klog_2p_k)\\ &=Ent(D)-\sum^V_{v=1}{|D^v|\over|D|}(-\sum^{|y|}_{k=1}{{|D_k^v|}\over{|D^v|}}log_2{{|D_k^v|}\over{|D^v|}}) \end{aligned} Gain(D,a)=Ent(D)v=1VDDvEnt(Dv)=Ent(D)v=1VDDv(k=1ypklog2pk)=Ent(D)v=1VDDv(k=1yDvDkvlog2DvDkv) 其中,当某一属性可取值数目较多时, D v D^v Dv会更加趋近于 D k v D_k^v Dkv(可极端考虑为 D v = D k v D^v=D_k^v Dv=Dkv,即某一属性的可取值数目等于类别数), G a i n ( D , a ) Gain(D,a) Gain(D,a)会更大。

二、C4.5决策树——以信息增益率为准则来选择划分属性的决策树

信息增益率:
G a i n _ r a t i o ( D , a ) = G a i n ( D , a ) I V ( a ) Gain\_ratio(D,a)={Gain(D,a)\over{IV(a)}} Gain_ratio(D,a)=IV(a)Gain(D,a) 其中:
I V ( a ) = − ∑ v = 1 V ∣ D v ∣ ∣ D ∣ l o g 2 ∣ D v ∣ ∣ D ∣ IV(a)=-\sum^V_{v=1}{|D^v|\over{|D|}}log_2{|D^v|\over{|D|}} IV(a)=v=1VDDvlog2DDv I V ( a ) IV(a) IV(a)用来衡量样本对a属性分布是否均匀,越均匀,则 I V ( a ) IV(a) IV(a)越大。

需要注意的是,增益率准测对可取植数目较少的属性有所偏好,因此,C4.5算法并不是直接选择增益率最大的属性进行划分,而是:先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。

三、CART决策树——以基尼指数为准则来选择划分属性的决策树

基尼值: G i n i ( D ) = ∑ v = 1 ∣ y ∣ ∣ D v ∣ ∣ D ∣ p k ( 1 − p k ) Gini(D)=\sum^{|y|}_{v=1}{{|D^v|}\over{|D|}}p_k(1-p_k) Gini(D)=v=1yDDvpk(1pk)
基尼值表示:从数据集中任意抽取两个样本,两个样本属于不同类别的概率。
基尼指数: G i n i i n d e x ( D , a ) = ∑ v = 1 V ∣ D v ∣ ∣ D ∣ G i n i ( D v ) Gini_index(D,a)=\sum^V_{v=1}{|D^v|\over|D|}Gini(D^v) Giniindex(D,a)=v=1VDDvGini(Dv)
基尼值和基尼指数越小(随机抽取的样本是同一类别的概率越大),样本集合的纯度越高。

你可能感兴趣的:(机器学习,决策树,机器学习,人工智能)