关于特征选择的一些常用手段(其一)

关于特征选择的一些常用手段(其一)

撰写日期:2022年11月30日16:39:11 , 今天合肥气温-2°-0,TMD ᕙ(`▿´)ᕗ 真冷! —今天的风儿有些喧嚣

1. 信息增益

  • 定义:
    ,表现的事情的不确定性;越大越不确定。
    条件熵,表现的是在一个条件下,事情的不确定性;
    信息增益,为熵与条件熵的差,表现的是信息的不确定性减少的程度。越大,该条件越重要
  • 定义与公式:特征A对训练数据集 D D D的信息增益 g ( D , A ) g(D,A) g(D,A),定义为集合 D D D的信息熵 H ( D ) H(D) H(D)与特征 A A A给定条件下 D D D的信息条件熵 H ( D ∣ A ) H(D|A) H(DA)之差,即公式为:
    g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)H(DA)
  • 信息熵计算公式: H ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ l o g b P ( ∣ C k ∣ ∣ D ∣ ) H(D)=-\sum_{k=1}^{K}\frac{\lvert C_k\rvert}{\lvert D\rvert}log_bP(\frac{\lvert C_k\rvert}{\lvert D\rvert}) H(D)=k=1KDCklogbP(DCk)
  • 条件熵计算公式: H ( D ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) H(D)=-\sum_{i=1}^{n}\frac{\lvert D_i\rvert}{\lvert D\rvert}H(D_i) H(D)=i=1nDDiH(Di)
    注: C k C_k Ck表示属于某个类别的样本数

例1

关于特征选择的一些常用手段(其一)_第1张图片

以年龄特征来计算:
1 、 g ( D , 年 龄 ) = H ( D ) − H ( D ∣ 年 龄 ) = 0.971 − [ 5 / 15 H ( 青 年 ) + 5 / 15 H ( 中 年 ) + 5 / 15 H ( 老 年 ] 1、g(D, 年龄) = H(D) -H(D|年龄) = 0.971-[5/15H(青年)+5/15H(中年)+5/15H(老年] 1g(D,)=H(D)H(D)=0.971[5/15H()+5/15H()+5/15H(]
2 、 H ( D ) = − ( 6 / 15 l o g ( 6 / 15 ) + 9 / 15 l o g ( 9 / 15 ) ) = 0.971 2、H(D) = -(6/15log(6/15)+9/15log(9/15))=0.971 2H(D)=(6/15log(6/15)+9/15log(9/15))=0.971
3 、 H ( 青 年 ) = − ( 3 / 5 l o g ( 3 / 5 ) + 2 / 5 l o g ( 2 / 5 ) ) 3、H(青年) = -(3/5log(3/5) +2/5log(2/5)) 3H()=(3/5log(3/5)+2/5log(2/5))
H ( 中 年 ) = − ( 3 / 5 l o g ( 3 / 5 ) + 2 / 5 l o g ( 2 / 5 ) ) H(中年)=-(3/5log(3/5) +2/5log(2/5)) H()=(3/5log(3/5)+2/5log(2/5))
H ( 老 年 ) = − ( 4 / 5 o g ( 4 / 5 ) + 1 / 5 l o g ( 1 / 5 ) H(老年)=-(4/5og(4/5)+1/5log(1/5) H()=(4/5og(4/5)+1/5log(1/5)

接着我们以A1、A2、A3、A4代表年龄、有工作、有自己的房子和贷款情况。最终计算的结果g(D, A1) = 0.313, g(D, A2) = 0.324, g(D, A3) = 0.420,g(D, A4) = 0.363。所以我们选择A3 作为划分的第一个特征。这样我们就可以一棵树慢慢建立。

当然决策树的原理不止信息增益这一种,还有其他方法。但是原理都类似,我们就不去举例计算。

方法 描述
ID3 信息增益 最大的准则
C4.5 信息增益比 最大的准则
基尼系数 最小的准则 在sklearn中可以选择划分的默认原则,优势:划分更加细致

例2

明天想出去郊游,所以要搞清楚明天下不下雨。假设明天下不下雨为事件A,事件A为不确定性事件,可求其熵。而我们再假设事件B为明天阴天,那么根据数学概率论知识, P ( A ∣ B ) P(A|B) P(AB) 代表着明天阴天的情况下下雨的概率,其为条件熵,且 P ( A ∣ B ) P(A|B) P(AB)为条件概率。

要知道,熵代表着的是事情的不确定性。根据我们的常识,直到要是阴天的话很大可能会下雨,所以该事件的不确定性很小,所以其所包含的信息量很少,即条件熵的值很小。而什么都不知道的去判断明天时候下雨,即事件A,其存在着太多的不确定性,所以其熵的值会很大,至少相比条件概率来说会大很多。

信息增益 = 熵-条件熵,其相减得到的值为信息量的变化,所以 P ( A ) − P ( A ∣ B ) P(A)-P(A|B) P(A)P(AB)就是直到明天阴天后下雨的概率的变化。这个变化值很大,说明的是明天阴天这件事对于整个事件(事件A:下雨)充当着决定性的作用,即该事件(事件B:阴天)是非常非常重要的

参考:https://blog.csdn.net/weixin_43098506/article/details/127243622
相关介绍视频: https://www.bilibili.com/video/BV1nt411r7tj?p=28&spm_id_from=pageDriver&vd_source=95b017b58d489bc85f79b312596e6b3c

你可能感兴趣的:(决策树,人工智能)