Accelerating Large Scale Centroid-BasedClustering with Locality Sensitive Hashing

Accelerating Large Scale Centroid-Based Clustering with Locality Sensitive Hashing

大多数传统的数据挖掘算法难以高效地处理海量数据。本文提出了一个通用框架来加速现有算法对包含大量属性、项目和簇的大规模数据集进行聚类。该框架利用局部敏感哈希来显著减少聚类搜索空间。从理论上证明了所提出框架在聚类质量方面有一个保证的误差界。该框架可以应用于一组基于质心的聚类算法,这些算法将一个对象分配到最相似的簇中,并采用流行的K-Modes分类聚类算法来展示如何应用该框架。我们用五个合成数据集和一个真实世界的Yahoo!答案的数据集。实验结果表明,该框架能够在保持相近的聚类纯度的前提下,以2到6的因子加速现有的聚类算法。 

因此,在面对大规模数据聚类时,相似性(或距离)比较可能成为主要的性能瓶颈。当k很大的时候,这种聚类算法扩展性不好,在效率上表现很差。解决该问题并提高效率的方法是利用局部敏感哈希(locality sensitive hashing, LSH)[5]。通过使用LSH技术,对于一个要用基于质心的聚类算法进行聚类的给定项,我们能够找到具有一定相似性且高于预定义阈值的所有其他项目标是为待聚类数据集中所有相似项建立一个基于哈希的索引,并利用该索引获得候选簇的候选列表,以便基于质心的聚类算法对该项进行操作。该方法可以在应用现有聚类算法之前消除不相似的聚类,在保持聚类质量的同时显著加快聚类过程,是本文工作的关键创新点。

本文主要研究K-Modes算法。K-Modes[3]是一种用于分

你可能感兴趣的:(DBSCAN算法,各类数据结构,层次聚类,聚类,算法)