聚类分析 | 最优K-means聚类算法(Python)

无监督机器学习,特别是聚类(clustering)对各种实际业务分析项目至关重要。但是,部分聚类算法需要设置聚类的数量,这是聚类算法的重要挑战之一。

通常,在处理数据时,使用迭代方法来决定最优簇群的数量。这意味着我们要多次进行聚类,每次使用不同数量的集群,并评估相应的结果。虽然这种技术很有用,但它也有局限性。

yellowbrick是一个常用的工具,可以轻松识别最优集群的数量。然而,它也有一些缺点。一个重要的缺点是在评估多个指标时可能出现相互冲突的结果以及在图表上识别肘部(elbow)的挑战。

此外,无论使用哪个软件包,数据集的大小都会带来另一个问题。当处理大型数据集时,资源消耗困难可能会妨碍我们有效地进行迭代。如果是这种情况,考虑诸如MiniBatchKMeans之类的技术,它可以提供并行聚类。

MiniBatchKMeans 是一种 K-means 聚类算法的变体,它是 K-means 的一种加速版本。K-means 是一种无监督学习算法,用于将数据集划分为 k 个不同的组(簇),使得每个数据点都属于最接近的簇的中心。而 MiniBatchKMeans 在大规模数据集上执行 K-means 聚类时,通过随机抽取小批量(mini-batch)样本进行迭代训练,从而降低计算成本。

但是,聚类程序的高级优化可能需要一些鲜为人知的技术,下面将进一步介绍。并且,还将了解kscorer软件包,它简化了这些技术,为确定最佳聚类数量提供了更强大、更高效的方法。

聚类的高级优化技术包括:

降维:在应用聚类算法之前,对数据执行主成分分析(PCA)可能是有益的。这将减少数据干扰,导致更可

你可能感兴趣的:(聚类分析算法(CLA),算法,kmeans,聚类)