5 聚类 - 性能度量

外部指标 (要求数据集有标签)

5 聚类 - 性能度量_第1张图片
image.png
  • 调整兰德系数 Adjusted Rand Index
    描述分类与真实标签的相似度
    1) RI取值范围为[0,1],RI越大聚类效果越准确,即每个类内的纯度越高
    2) ARI取值范围为[−1,1],值越大意味着聚类结果与真实情况越吻合。从广义的角度来讲,ARI衡量的是两个数据分布的吻合程度。


    5 聚类 - 性能度量_第2张图片
    image.png

    其中,a代表同类别同标签元素对数, b代表不同类别不同标签元素对数

  • jaccard
    又称为Jaccard相似系数(Jaccard similarity coefficient)用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。

内部指标 (针对无标签数据)

5 聚类 - 性能度量_第3张图片
image.png

相对指标

  • 轮廓系数

轮廓系数描述的是 样本是否被正确分类的评分


5 聚类 - 性能度量_第4张图片
image.png

轮廓系数可以用于确定k值


5 聚类 - 性能度量_第5张图片
image.png
5 聚类 - 性能度量_第6张图片
image.png

评判分类效果


5 聚类 - 性能度量_第7张图片
image.png

轮廓系数的缺点: 如双环形数据集,单连接和DBSCAN可以完美分割,但是得分却很低,因而轮廓系数更适合用于紧凑的数据聚类


5 聚类 - 性能度量_第8张图片
image.png

聚类算法评价指标

你可能感兴趣的:(5 聚类 - 性能度量)