信息增益、信息增益率、Gini

1、  C4.5继承了ID3的优点,并改进了:(1)使用信息增益率来选择属性,克服了用信息增益选择属性时偏向值多的不足;(2)在构树过程中进行剪枝;(3)能够完成对连续属性的离散化处理;(4)能够对不完整数据进行处理;

2、  信息增益、信息增益率、Gini这三个指标均是决策树用来划分属性的时候用到的,其中信息增益(Info Gain)用于ID3,Gini用于CART,信息增益率(Info Gain Ratio)用于C4.5。

3、  下面举例说明信息增益和信息增益率的计算:

天气预报数据集例子

Outlook

Temperature

Humidity

Windy

Play?

sunny

hot

high

false

no

sunny

hot

high

true

no

overcast

hot

high

false

yes

rain

mild

high

false

yes

rain

cool

normal

false

yes

rain

cool

normal

true

no

overcast

cool

normal

true

yes

sunny

mild

high

false

no

sunny

cool

normal

false

yes

rain

mild

normal

false

yes

sunny

mild

normal

true

yes

overcast

mild

high

true

yes

overcast

hot

normal

false

yes

rain

mild

high

true

no

共14个实例,9个正例(yes),5个负例(no)。

(1)   熵(Entropy)

       条件熵

      根据条件熵的定义,分类系统中的条件熵指的是当样本的某一特征X固定时的信息熵。由于该特征X可能的取值会有(x1,x2,……,xn),当计算条件而需要把它固定的时候,每一种可能都要固定一下,然后求统计期望。因此样本特征X取值为xi的概率是Pi,该特征被固定为值xi时的条件信息熵就是H(C|X=xi),那么 ,H(C|X)就是分类系统中特征X被固定时的条件熵(X=(x1,x2,……,xn)):


(2)   信息增益:

Gain(S,A)=E(S)–E(S|A)

通过对outlook属性来划分,有{sunny,overcast,rain}三个类别,个数分别为5,4,5;

                            5个sunny中有2个正例,3个负例:

                                     info(sunny)=info([2,3])=0.97=I(p1,n1)

                            4个overcast中有4个正例,0个负例:

                                     info(overcast)=0=I(p2,n2)

                            5个rain中有3个正例,2个负例:

                                     info(rain)=info([3,2])=0.971=I(p3,n3)

                            故outlook的期望信息为:

   

(上式中的E(outlook)=E(S|A),由于是图片截图,所以过几天再修改吧,希望大家注意一下这个地方)

从而信息增益为Gain(outlook)= E(S)–E(S|A)=0.246

同理可得:  Gain(temperature)=0.029

Gain(humidity)=0.151

Gain(windy)=0.048

选择最大的信息增益属性进行划分,然后再重复进行上述步骤,直至建好一棵树为止;在本例中第一个分支节点的属性是outlook;

 

 

(3)   信息增益率:

Gain-ratio=Gain(A)/I   (I为分裂信息度量)

例如:由(2)得到Gain(outlook)=0.246

      I(5,4,5)=-=1.5774

则信息增益率为Gain-ratio(outlook)=0.246/1.5774=0.15595

同理可得:Gain-ratio(temperature)=0.01863

Gain-ratio(humidity)=0.151

Gain-ratio(windy)=0.0487

 

(4)   Gini:

改天补充

 

 

你可能感兴趣的:(论文笔记)