机器学习———聚类的性能度量指标与距离度量计算

聚类,是无监督学习的代表,将数据集D划分成了若干个不相交的子集,称为簇,我们总体的目标是“簇间相似性越低越好,簇内相似性越高越好”。

1.性能度量指标——外部指标

外部指标:聚类结果与某个“参考模型”进行比较。

对数据集D=\left \{ \right.\begin{matrix} x_1 & x_2 & ... & x_m \end{matrix}\left. \right \},假设通过聚类划分为C=\left \{ \right.\begin{matrix} C_1 & C_2 & ... & C_m \end{matrix}\left. \right \},参考模型的划分为:C^*=\left \{ \right.\begin{matrix} C^*_1 & C^*_2 & ... & C^*_m \end{matrix}\left. \right \},令\lambda\lambda ^*分别表示CC^*的标记。则令

a=\left | SS \right |, SS=\left \{ \lambda _i = \lambda_j, \lambda^*_i = \lambda^*_j, i<j \right \}

b=\left | SD \right |, SD=\left \{ \lambda _i = \lambda_j, \lambda^*_i \neq \lambda^*_j, i<j \right \}

c=\left | DS \right |, DS=\left \{ \lambda _i \neq \lambda_j, \lambda^*_i = \lambda^*_j, i<j \right \}

d=\left | DD \right |, DD=\left \{ \lambda _i \neq \lambda_j, \lambda^*_i \neq \lambda^*_j, i<j \right \}

可以看出a+b+c+d = m(m-1)/2

  • Jaccard系数(JC)                                   JC=\frac{a}{a+b+c}
  • FM指数(FMI)                                        FMI = \sqrt{\frac{a}{a+b}\frac{a}{a+c}}
  • Rand指数(RI)                                       RI=\frac{2(a+d)}{m(m-1)}

显然,上述性能指标的都在[0,1]之内,且越大越好

2. 几个距离计算公式

定义dist(.,.)为某一个距离度量,给定样本\mathbf{x_i}=(x_{i1};x_{i2};...x_{in})\mathbf{x_j}=(x_{j1};x_{j2};...x_{jn})

  • 闵可夫斯基距离                                               dist_{mk}(x_i,x_j)=\left \| x_i-x_j \right \|_p=\left ( \sum |x_{iu}-x_{ju}|^p \right )^{\frac{1}{p}}
  • 欧式距离 (p=2)                                            dist_{ed}(x_i,x_j)=\left \| x_i-x_j \right \|_2=\left ( \sum |x_{iu}-x_{ju}|^2 \right )^{\frac{1}{2}}
  • 曼哈顿距离(p=1)                                         dist_{man}(x_i,x_j)=\left \| x_i-x_j \right \|_1= \sum |x_{iu}-x_{ju}|

以上三种距离可以进行有序属性的划分

  • Value Difference Metric(VDM)                       VDM_p(a,b)=\sum \left | \frac{m_{u,a,i}}{m_{u,a}} -\frac{m_{u,b,i}}{m_{u,b}} \right |

VDM可以进行无序属性的划分

  • Minkov_VDM                                              MinkovVDM_p(x_i,x_j)=(\sum |x_{iu}-x_{ju}|^p+\sum VDM_p(x_{iu},x_{ju}) )^\frac{1}{p}

闵可夫斯基距离与VDM的混合可以用于混合属性

当样本空间的不同属性重要性不同时,可以使用“加权距离”

3.性能度量指标——内部指标

内部指标:直接考察聚类结果而不利用任何参考模型。

考虑到聚类结果的簇划分C=\left \{ \right.\begin{matrix} C_1 & C_2 & ... & C_m \end{matrix}\left. \right \},定义:

簇内样本间的平均距离:               avg(C)=\frac{2}{|C|(|C|-1)}\sum _{1\leq i<j\leq |C|}dist(x_i,x_j) 

簇内样本间的最远距离:             diam(C)=max_{1\leq i<j\leq |C|} dist(x_i,x_j)

簇间样本间的最短距离:            d_{min}(C_i,C_j)=min_{x_i \in C_i,x_j \in C_j}dist(x_i,x_j)

簇间样本间中心点距离:           d_{cen}(C_i,C_j)=dist(\mu_{i},\mu_{j}),  其中,\mu=\frac{1}{|C|}\sum _{1\leq i\leq |C|}x_i,被称作是簇C的样本中心。

  • DB指数                         DBI=\frac{1}{k}\sum _1^k max_{j \neq i} (\frac{avg(C_i)+avg(C_j)}{d_{cen}(\mu_i,\mu_j)})
  • Dunn指数                    DB=\min_{1\leq i \leq k}\left \{ \min_{j \neq i} \left ( \frac{d_{min}(C_i,C_j)}{\max_{1\leq l\leq k}diam(C_l)} \right )\right \}

显然,DBI越小越好,DB越大越好。

 

 

 

 

你可能感兴趣的:(机器学习老周)