人工智能_机器学习083_聚类评价指标_调整兰德系数_算法公式原理解析_手写代码使用兰德系数对聚类结果评分---人工智能工作笔记0123

人工智能_机器学习083_聚类评价指标_调整兰德系数_算法公式原理解析_手写代码使用兰德系数对聚类结果评分---人工智能工作笔记0123_第1张图片

然后我们再来看一下另一个评价聚类指标的系数,可以看到 兰德系数

上面RI= a+b/C2 ... 首先要知道这里的C,就是实际的类别,就是我们在业务上知道的类别数,然后K表示聚类以后的结果

当然当C==K 一样的时候,说明聚类效果是最好的对吧.

a表示在C中被划分为同一类,也就是,比如一组数据实际被分为了3类,那么a,就表示 在C这种实际划分为比如3类,中的 划分为同一簇的实例的数量, 也就是实际C这种划分,被划分为同一簇的数据的数量

比如一组数据,实际被划分为3类,这就是C,这种实际划分情况,那么3类就有3个簇,那么a就表示在 这3个簇,比如c,d,e 这3个簇 中,归属于c这一个簇的数据的数据量

同时 同时使用聚类算法 获取的K类 中对应的同一簇的 数据的数量 对

b表示在C中被划分为不同类别,在K中被划分为不同簇的实例的数据量 比如一个数据在C中被划分到了c簇,在K中被划分到了d簇对吧,这样的数据的数量

后面ARI是对兰德系数进行了一下改进,这个改进了以后的兰德系数,更有说服力

人工智能_机器学习083_聚类评价指标_调整兰德系数_算法公式原理解析_手写代码使用兰德系数对聚类结果评分---人工智能工作笔记0123_第2张图片

然后我们看一下如何实际使用

首先我们导入兰德系数

from sklearn.metrics import adjusted_rand_score  导入兰德系数

for k in range(2,7):  划分的数据的范围指定从2到7中找,最合理的分类个数

    kmeans = KM

你可能感兴趣的:(机器学习,人工智能,兰德系数,轮廓系数,聚类指标验证)