聚类的评价指标

  我们知道,监督学习的评价指标是准确率、召回率、 F 1 、 F β F_1、F_\beta F1Fβ、ROC-AUC等等,但聚类方法在大多数情况下数据是没有标签的,这些情况下聚类就不能使用以上的评价指标了。
  聚类有自己的评价指标,大多数聚类的评价指标是通过紧凑性和可分性来定义的。紧凑性基本上是衡量一个聚类中的元素彼此之间的距离,而可分性表示不同聚类之间的距离,总的来说聚类的评价指标有以下三个类型:
1、外部指标:这是处理有标签数据时使用的评分,可以说监督学习的评价指标都是外部指标。

2、内部指标:使用数据来衡量数据和结构之间的吻合度。

3、相对指标:通过对比,表明两个聚类结构中哪一个在某种意义上更好。

一、Adjusted Rand Index(调整兰德系数)

Adjusted Rand Index是外部指标的一种,其得分区间是 [ − 1 , 1 ] [-1,1] [1,1]。在计算Adjusted Rand Index前,我们要先计算一下Rand Index。

1、Rand Index(兰德系数)

Rand Index是Adjusted Rand Index的前身,Rand Index因为惩罚力度不够,导致聚类得分普遍很高,因此才有Adjusted Rand Index。
R I = a + b ( n 2 ) RI = \frac{a+b}{ \begin{pmatrix} n\\ 2\\ \end{pmatrix} } RI=(n2)a+b
a:表示在真实标签上在同一个分类,聚类后也在同一个分类的对数。
b:表示在真实标签上不在同一个分类,聚类后也不在同一个分类的对数。
( n 2 ) \begin{pmatrix} n\\ 2\\ \end{pmatrix} (n2):表示所有数据的对数,在排列组合中的表示方式是 C n 2 C^2_n Cn2

例如:

假设有数据(a,b,c,d,e),在真实标签中(a,b)为一类,(c,d,e)为另一类,而聚类后(a,b,c)为一类,(d,e)为另一类,那么
a = C 2 2 + C 2 2 = 2 a = C^2_2 + C^2_2 = 2 a=C22+C22=2
b = C 2 1 ∗ C 2 1 = 4 b = C^1_2 * C^1_2 = 4 b=C21C21=4
( n 2 ) = C 5 2 = 10 \begin{pmatrix} n\\ 2\\ \end{pmatrix} = C^2_5 = 10 (n2)=C52=10
R I = 2 + 4 10 = 0.6 RI = \frac{2+4}{10} = 0.6 RI=102+4=0.6

2、Adjusted Rand Index的计算

A R I = R I − E x p e c t e d I n d e x m a x ( R I ) − E x p e c t e d I n d e x ARI = \frac{RI- ExpectedIndex}{max(RI)-ExpectedIndex} ARI=max(RI)ExpectedIndexRIExpectedIndex
ARI的原始公式是这样子的:

聚类的评价指标_第1张图片

二、Silhouette index(轮廓系数)

轮廓系数是内部指标的一种,其得分区间是 [ − 1 , 1 ] [-1,1] [1,1]
计算数据点的轮廓系数
S i = b i − a i m a x ( a i , b i ) S_i = \frac{b_i - a_i}{max(a_i,b_i)} Si=max(ai,bi)biai
a是同一个聚类中到其它样本的平均距离;
b是与它距离最近的不同的聚类的样本的平均距离。

聚类的轮廓系数
S = ∑ i = 1 n S i n S = \frac{\sum^{n}_{i=1}S_i}{n} S=ni=1nSi

轮廓系数的缺点:
1、轮廓系数不适合评价紧凑的环形的数据聚类;
2、当模型是DBSCAN时,不适合使用轮廓系数作为评价指标。

你可能感兴趣的:(机器学习,非监督学习)