DBSCAN-MS: Distributed Density-Based Clustering in Metric Spaces

DBSCAN-MS: Distributed Density-Based Clustering in Metric Spaces

DBSCAN是一种重要的基于密度的聚类方法,在机器学习和数据挖掘等领域有着广泛的应用。然而,随着数据量和数据种类的快速增长,传统的DBSCAN面临挑战,因此需要度量空间的分布式DBSCAN。本文提出了一种度量空间中基于密度的分布式聚类算法——DBSCAN-MS。为了保证负载平衡,我们提出了一种基于k-d树的分区方法。它利用支点将度量空间中的数据映射到向量空间,并采用k-d树划分技术对数据进行平均划分。为了避免不必要的计算和通信开销,我们提出了一种基于合并图的框架,该框架将数据进行分区,查找局部DBSCAN结果,并对局部结果进行合并。此外,在剪枝框架中还采用了枢轴滤波和滑动窗口技术。在真实和合成数据集上的大量实验证明了我们提出的DBSCAN-MS的效率和可扩展性

你可能感兴趣的:(时空轨迹数据,聚类,数据挖掘,算法)