【记录资源&想法】如何评估聚类效果 i.e. Clustering performance evaluation/Clustering validity assessment.

首先,sklearn的文档里有一些很老很老的方法的介绍,一般是需要gt_label,一般不需要,但是我看那些不需要真实标签的方法,都是在简单的测量聚类结果中每一个cluster的“聚集度”,感觉都很弱:https://scikit-learn.org/stable/modules/clustering.html#clustering-performance-evaluation

 

然后,看了这个知乎的帖子:https://www.zhihu.com/question/19635522,我感觉我接下来要探索的方法,一类是用交叉验证的(cross-validation),一类是比较高级的聚类质量评估如S_DBW,聚类质量和聚类稳定性选做吧。

 

先从2010年“Understanding of Internal Clustering Validation Measures, Liu et al.” 这篇文章中看一下Internal/External clustering validation的定义吧:

External clustering validation and internal clustering validation are the two main categories of clustering validation. The main difference is whether or not external information is used for clustering validation. 

根据我的理解,用了外部/全局信息的方法是External clustering evaluation,比如用了熵去评估聚类的结果。文中也说了,external clustering evaluation 需要知道 “true clusters number”, (但我不知道对于external,true label是不是必须的?)。而对于 Internal clustering evaluation,它不需要知道 true lables,只看数据本身和聚类的结果。文章进一步介绍了internal validation measures 一般基于两个方面:聚集度和分离度(compactness and separation),具体解释请看文章。文中测试的11种clustering evaluation methods 都用了这两方面之一,或其中一个。

之后文章用故意产生的、有各种特点的数据,apply不同K值的K-means,然后用这11种方法去评估最佳的K值,结论就是,S_DBW是最好的。

 

下一篇文章也是知乎那个帖子里的一个答主的,但是在看他文章之前,还要先了解一下什么是“cluster validity indices”。在2013年的“An extensive comparative study of cluster validity indices, Arbelaitz et al.”这片综述中,这个cluster validity indices(CVI)其实就是:

This work focuses on the first approach mentioned, which directly estimates the quality of a partition by measuring the compactness and separation of the clusters. Although there is no standard terminol- ogy, in the remainder of this paper we will call Cluster Validity Index (CVI) to these kind of indices.

所以CVI还是2010文章里的那一些,通过比较更多更多的internal clustering evaluation methods,这篇文章中结论中表现最好的是Silhouette index。仔细对比这两篇文章,感觉两篇文章都对Silhouette 这个方法有挺高的评价,而且都证明了它对于噪声对鲁棒性。

你可能感兴趣的:(随笔)