聚类学习(1)——性能度量和距离计算

一、聚类任务。

聚类是一种无监督学习,目标通过对无标记训练样本的学习揭示数据的内在性质及规律,为进一步的数据分析提供基础。

聚类可以作为一个单独的过程,用于寻找数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。

二、聚类性能度量,也称有效性指标

对聚类结果,一需评估其好坏;二若明确最终要用的性能度量,可直接将其作为聚类过程的优化目标,得到更好地得到符合要求的聚类结果。

目的:簇内相似度高,簇间相似度低

2.1 将聚类结果与某个“参考模型”进行比较,称为外部指标

对数据集,假定通过聚类划分的簇为参考模型给出的簇划分为.令分别表示与C和C*对应的簇标记向量。将样本两两配对考虑,定义

,a表示集合SS包含了在C中属于相同簇且在C*中也属于相同簇的样本对

,b表示集合SD包含了在C中属于相同簇但在C*中属于不同簇的样本对

,c表示集合DS包含了在C中属于不同簇但在C*中属于相同簇的样本对

,d表示集合DD包含了在C中属于不同簇且在C*中属于不同簇的样本对

因为每个样本对仅能出现在一个集合中,因此有.

常用的聚类性能度量外部指标:

  • Jaccard系数

                                                        

  • FM指数

                                                      

  • Rand指数

                                                   

以上结果值都在[0,1]间,值越大越好。

2.2直接考察聚类结果而不利用任何参考模型,称为内部指标

聚类划分的簇为,定义:

,表示簇C内样本间的平均距离

,表示簇C内样本间的最远距离

,表示簇Ci和簇Cj最近样本间的距离

,表示簇Ci和簇Cj中心点间的距离

常用的聚类性能度量内部指标:

  • DB指数

  • Dunn指数

DBI值越小越好,DI值越大越好。

三、距离计算

  • 有序属性——用闵可夫斯基距离计算

                                         

p=1时,为曼哈顿距离;p=2时,为欧式距离。

  • 无序属性——VDM距离

,m(u,a)表示在属性u上取值为a的样本数,m(u,a,i)表示在第i个样本簇中在属性u上取值为a的样本数,k为样本簇数。

  • 混合属性——二者结合,令有序属性排在无序属性前,有nc个有序属性,n-nc个无序属性

注:多数现实任务中,需要基于数据样本确定合适的距离计算公式,可通过距离度量学习实现。

 

 

 

 

你可能感兴趣的:(算法)