通过机器学习得到样本的特征权重

描述:

计算每个特征对样本集进行划分所获得的信息增益,然后做归一化处理可以得到每个特征的权重

目标:

样本降维

一种算法策略:参考决策树的划分选择

首先引入概念信息熵信息增益。

信息熵(information entropy)是度量样本几何纯度最常用的一种指标。假定样本集合D中第k类样本所占的比例为

                                                       

则D的信息熵定义为

                                                   (1.1)

(熵在物理学上指混乱程度,因此熵越低信息越确定。举个极端的例子,样本集只有一个类别+1,那么P1=1,Ent(D)=0,信息熵为0即非常确定,因为随便取一个样本都是+1)

假定离散属性a有V个可能的取值,若使用a来对样本集D进行划分,则会产生V个子集,其中第v个子集包含了D中所有在属性a上取值为的样本,记为。可以根据式(1.1)计算出的信息熵,再考虑到不同的子集所包含的样本数不同,给子集赋予权重,即样本数越多的子集的影响越大,于是可以计算出用属性a对样本集D进行划分所获得的信息增益(information gain)

 

                                (1.2)

 

假定样本集D上第j个特征),可以计算出每个特征在训练数据集D下的信息增益,于是得到K个信息增益值,对其做归一化处理,可以得到每个特征所占的权重:

                                                                           (1.3)

 

下面举个例子来更好的理解上述公式。

假定某二分类数据集有17个样本,其中正例8个,反例9个,显然|y|=2。因此,根据式(1.1)可以计算出信息熵为

                              

 

假定该数据集有6个特征{颜色,形状,声响,纹理,触感,气味},然后我们要计算出每个特征的信息增益。以“颜色”为例,假定它有3个可能的取值:{红色,绿色,蓝色}。用该特征对数据集D进行划分,则可得到3个子集,分别记为(颜色=红色),(颜色=绿色),(颜色=蓝色)。

假定有6个样本,其中正例占,反例占有6个样本,其中正例占,反例占有5个样本,其中正例占,反例占 。根据式(1.1)可以计算出用“颜色”划分之后所获得的3个子集的信息熵为

                                            

                                            

                                            

于是,根据式(1.2)可以计算出特征“颜色”的信息增益为

通过机器学习得到样本的特征权重_第1张图片

同理可得其他特征的信息增益:

                                                                            

                                                                            

                                                                            

                                                                            

                                                                            

根据式(1.3)可以计算出每个属性的权重:

                                    

                                    

                                    

                                    

                                    

​​​​​​​                                    

 

 

参考资料:

  1. CSDN.利用分类模型学习特征权重​​​​​​​
  2. 周志华.《机器学习》[M].北京:清华大学出版社,2016

你可能感兴趣的:(机器学习与深度学习,机器学习,分类算法,特征权重,数据预处理,Python)