无涯教程-Python机器学习 - Analysis of Silhouette Score函数

剪影得分的范围是[-1,1]。其分析如下-

  • +1分数-接近+1 剪影分数表示样本距离其邻近簇很远。

  • 0分数-0 剪影分数表示样本在将两个相邻聚类分隔开的决策边界上或非常接近。

  • -1分数-1 剪影分数表示样本已分配给错误的聚类。

Silhouette得分的计算可以使用以下公式完成

$$剪影得分\:=\:( p-q)/max(p,q)$$

此处,p =到最近群集中点的平均距离

并且,q =到所有点的平均集群内距离。

戴维斯-布尔丁指数

DB索引是执行聚类算法分析的另一个很好的指标。借助数据库索引,我们可以了解有关集群模型的以下几点:

  • 天气如何,群集之间的间隔是否适当?
  • 这些簇有多少密度?

我们可以借助以下公式计算数据库索引-

$$DB\:=\:\frac {1} {n}\displaystyle\sum\limits_ {i=1} ^ n max_ {j\neq\:i}(\frac {\sigma_ {i} +\sigma_ {j}} {d(c_ {i},c_ {j})})$$

在这里,n =簇数

$\sigma_ {i} $=群集中所有点的平均距离?来自群集质心$c_ {i} $。

DB索引越少,集群模型越好。

邓恩指数

它的工作原理与数据库索引相同,但是在以下几点上,两者有所不同-

  • Dunn索引仅考虑最坏的情况,即靠近的集群,而DB索引考虑聚类模型中所有集群的分散和分离。

  • Dunn索引随着性能的提高而增加,而当群集间隔适当且密集时,DB索引会变得更好。

我们可以借助以下公式来计算Dunn指数-

$$du:= yu:yufrat {min_ {1le:july:yulee:n} n(u,j)} {max_ {1le:jule:cuile:n} i(k)} $$

这里i,j,k =聚类的每个索引

p =集群间距离

q =集群内距离

Python机器学习 中的 Analysis of Silh - 无涯教程网无涯教程网提供剪影得分的范围是[-1,1]。其分析如下- +1分数-接近+1 剪影分数表示样本距离其邻近簇很...https://www.learnfk.com/python-machine-learning/machine-learning-with-python-analysis-of-silhouette-score.html

你可能感兴趣的:(无涯教程)