最全集成学习—多样性度量的方法总结

1.常用的多样性度量的方法

大体可分为两种:成对多样性度量和非成对多样性度量,成对得多样性度量首先计算每一对分类器之间的多样性值,然后用其平均值衡量集成系统的多样性;非成对多样性度量直接计算集成系统的多样性值。

1.1成对的多样性度量

在介绍成对的多样性度量的方法之前,首先引入以下符号:假设有L个分类器,C_{i}    和  C_{j}   (i , j=1,2,............,L,i\neqj)分别为两个不同的分类器,N^{11}N^{00})为分类器 C_{i} 和 C_{j} 都对其正确(错误)分类的样例数目,N^{10}N^{01})为满足以下要求的样例数目:分类器C_{i}C_{j})对其正确分类而分类器C_{j}C_{i})对其错误分类,由此总的样例数目N可以表示为

                                                                       N=N^{11}+N^{10}+N^{01}+N^{00}

具体所示如下表所示

                                        

1)Q统计

两个分类器C_{i} 和 C_{j} 之间的Q统计值为

                                                                    Q_{ij}=\frac{N^{11}N^{00}-N^{10}N^{01}}{N^{11}N^{00}+N^{10}N^{01}} 

由上式子所见对于每个样例,如果两个分类器总是对其正确或者错误分类,即其行为是相同的,则有N^{10}=N^{01}=0,即Q_{ij}=1,此时他们的多样性程度最低;反之,如果两个分类器在每个样例上的分类结果都不同,N^{11}=N^{00}=0,即Q_{ij}=-1,这种情况下多样性程度最高,对于统计独立的两个分类器,Q_{ij}的期望值是Q_{ij}=0

对于多分类系统C_{1}C_{2}C_{3},..................,C_{L},其Q统计多样性值可以通过计算每对分类器之间的多样性的平均值得到,即

                                                                    Q=\frac{2}{L(L-1)}\sum_{i=1}^{L-1}\sum_{j=i+1}^{L}Q_{ij}

其中类似的,对于以下三种成对的多样性度量,也是首先计算每对分类器之间的多样性,然后用其平均值作为集成系统的多样性值。

2)相关系数

两个分类器C_{i} 和 C_{j}之间的相关系数定义为

                                           \rho _{ij}=\frac{N^{11}N^{00}-N^{10}N^{01}}{\sqrt{(N^{11}+N^{10})(N^{01}+N^{00})(N^{11}+N^{01})(N^{10}+N^{00})}}

 可以看出,对于两个分类器C_{i} 和 C_{j}\rho _{ij}Q_{ij}有相同的符号,可以证明他们之间存在如下关系:

                                                                               \left | \rho _{ij} \right |\leqslant \left | Q_{ij} \right |

与相关系数\rho相比,Q统计更简单且更容易计算。

3)不一致度量dis

不一致度量关注两个分类器C_{i} 和 C_{j}分类结果不同的样例,他们之间的不一致度量dis_{ij}定义为:

                                                                        dis_{ij}=(N^{10}+N^{01})/N

对于这样的样例越多的话,两个分类器之间的多样性程度就会越高,反之的话多样性程度就会越低,在这里dis_{ij}的取值范围是[0,1].

4)双次失败度量DF

双次失败度量关注的是分类器C_{i} 和 C_{j}均将其错误分类的样例,定义如下:

                                                                            DF_{ij}=N^{00}/N

可以看出,这样的样例越多的话,两个分类器月倾向于在相同的样例上出错,极端地,如果对于每个样例x , C_{i} 和 C_{j}均将其错误分类,即DF_{ij}=1,则两个分类器的精确性和他们之间的多样性程度达到最低。

 今天就总结到这里,下次博客将会总结非成对的多样性度量的方法。

非成对的多样性度量的方法博文如下

https://blog.csdn.net/jodie123456/article/details/89465725

你可能感兴趣的:(机器学习)