性能度量

在无监督学习(unsupervised learning)中,训练样本的标记信息是未知的。

无监督学习的目标:通过对无标记训练样本的学习来揭露数据的内在性质以及规律。

聚类过程仅仅能自动形成簇结构,簇所对应的概念语义需要由使用者来提供。

聚类的作用:

  • 可以作为一个单独的过程,用于寻找数据内在的分布结构。
  • 也可以作为其他学习任务的前驱过程。如对数据先进行聚类,然后对每个簇单独训练模型。

希望同一簇的样本尽可能彼此相似,不同簇的样本之间尽可能不同。即:簇内相似度 intra-cluster similarity 高,且簇间相似度 inter-cluster similarity 低.

聚类的性能度量分两类:

  • 聚类结果与某个参考模型reference model进行比较,称作外部指标 external index 。
  • 直接考察聚类结果而不利用任何参考模型,称作内部指标 internal index 。

外部指标

image.png

Jaccard系数

image.png

FM指数

image.png

Rand指数

image.png

ARI指数

image.png

内部指标

image.png

DB指数

image.png

Dunn指数

image.png

距离度量

image.png

image.png

你可能感兴趣的:(性能度量)