面对机器学习的分类问题时,研究数据混淆度所使用的方法主要有两类:1.基于几何统计的角度。2.基于信息论的角度。
1. 适用于连续数据集下的数据混淆度指标的算法
(1)最大Fisher判别率F1
F1是待分类的训练数据集当中各个属性的Fisher判别率最大的那个值。
(2)各个属性混叠区域的体积F2
该指标是两类条件分布的尾部混叠。对于每个特征,每个类的最大值和最小值,我们可以通过寻找测量这个,然后计算所跨越这两个类的值的范围内归一化的混叠区域的长度,再乘W从每个特征维度得到的比率,得到测量的混叠区域的体积(归一化的特征空间上的大小)。F2定义如下,假定 max(fi,Cj),min(fi,Cj) 为类别 Cj 中属性 fi 的最大值和最小值,则F2的计算式如下,
(3)属性的特征效率F3
对于属性值过多的问题,需要引起注意的是如何找到那些具有判断力的信息用于分类。针对众多属性,选择对它们进行一一的考量,分别测得它们对分类贡献的有效性,也就是说具体求得每一个属性对分类的贡献率大小。
针对每一个属性,相同类别的点在每一类的所有取值范围内的任何一个区域发挥作用。假如不同类别的属性值存在重合的情况,那么该属性在此重合部分中的类别模糊性就需要重视起来
(4)最大Fisher判别率F1的方向矢量F1V
F1v计算方法的核也是寻找一个方向矢量,并且这个方向矢量能够分离两类不同的样本数据集,它实际上是对F1算法的补充。其针对于两种类别样本的计算公式如下所示
不过,值得一提的是F1v的这种计算方法仅仅适应于两类别样本的问题。如果fisher判别率的值比较大表明这种方法能够找到一个方向矢量用于区分开隶属于不同种类的样本。
2. 适用于离散数据集下的数据混淆度指标的算法
(1)改进后的F1
其中,P,N分别代表的是两种类别, tk 是两种类别中某一个属性下的一个特征值。 E(tk/N) 分别是特征值在两种类别中出现的频率。 D(tk/P)和D(tk/N) 分别是特征值 tk 在两种类别中的条件方差。其计算方法如下:
假设P类中有m个样本,对于第i个样本,若包含有特征值t_k,则令 dp,i(tk)=1
若未包含有特征值 tk ,则令 dp,i(tk)=0 。统计所有样本中 dp,i(tk)=1 的个数,假设个数
为ml。那么,
对于第N类样本,计算过程类同。
据于上述算法的思想,本文提出了一种F1的改进算法:假设P,N两类数据包含了al到an共n个属性。属性al中有b1个特征值,属性a2中有b2个特征值,属性an中有个特征值。则