关于聚类类别数k的选择

如何确定聚类的类别个数

  1. 由适当的阈值确定

  2. 根据数据点的散布图直观地确定类的个数

  3. 手肘法,利用核心指标SSE(sum of the squared errors误差平方和)在k增大时下降的斜率来判断,选取下降程度变化由剧烈到平滑的分割点,即肘部
    SSE=\sum_{i=1}^{k}\sum_{p\in C_i}|p-m|^2

  4. 轮廓系数法:轮廓系数(Silhouette Coefficient)结合了聚类的凝聚度(Cohesion)和分离度(Separation),用于评估聚类的效果。该值处于-1~1之间,值越大,表示聚类效果越好。
    先计算每个样本的轮廓系数S
    S=\frac{b-a}{\max(a, b)}
    a(凝聚度)是类内平均距离,b(分离度)是最近簇平均距离。
    然后计算所有样本的平均轮廓系数,选取轮廓系数最大的k值。

  5. DBI(Davies Bouldin index)(戴维森堡丁指数)(分类适确性指标)

    Davies-Bouldin

    对于DBI,每个类别的R_i是当前类内与周围某个类的区分度的倒数,S_iS_j越大,d_{ij}越小,表示类内离散度大,类间离散度小,所以聚类效果不好,R_i很大。
    反之S_iS_j越小,d_{ij}越大,此时聚类效果也好,R_i很小。

  6. CH指标


    Calinski-Harabasz

    CH指标越大越好

你可能感兴趣的:(关于聚类类别数k的选择)