Efficent density-based clustering algorightms

title: Design of computationally efficient density-based clustering algorithms ---- pdf download

code: None

abstract

本文针对基于密度的聚类方法，提出了优化策略，能够大幅度降低计算复杂度。针对DBSCAN聚类策略，首先通过快速融合策略来降低初始化阶段的计算复杂度，然后考虑到相似性度量时候的相关系数，通过相关性来判断两个点是否属于同一个类。

DBSCAN算法一共分为两步：初始化核心对象和合并小的类两个步骤，该方法和传统的DBSCAN的方法有所不同，传统的DBSCAN中提到的两阶段方法如下：

第一步，计算所有的核心对象，得到核心对象集合
第二步，随机从核心对象集合中间取一个样本，计算该核心对象所有密度直达的点，依次判断这些点是否是核心对象，如果是的话，就加入到该核心对象的cluster中，否则（边界点）跳过该点。其中每个点只能被访问一次，也就是说每个点一旦被某个cluster吸收进去了，就不会在被其他cluster进行吸收，因此DBSCAN的最终分类的结果和样本的访问顺序是有关的，即DBSCAN是一种不稳定的聚类方法。

针对DBSCAN的方法，本文在第二步的时候，没有依次判断核心对象的所有密度直达的点是否是核心对象，而是在第一步计算完所有的核心对象之后，得到每个核心对象的small cluster之后，对这些small cluster进行合并，并且采用了一种很巧妙的方法极大的降低了计算复杂度。

合并策略如下

（1）基于距离度量的快速合并算法

对于两个cluster A 和 B，两个cluster的距离计算如下：

其中y和z分别是和的边界点，因此（1）的计算复杂度应为

image.png

加速策略：

但是考虑到每个cluster在高维空间是一个球形，因此我们先计算cluster A 和 cluster B的点，分别为和，如果和之前的距离大于，则A和B的最小点的距离必然大于，根据这个条件，我们可以判断两个类是否进行合并。

image.png

（2）基于相关系数的度量

对于两个cluster A 和 B，两个cluster的距离通过皮尔逊相关系数来确定，相关系数的值为-1到1之间，计算如下：

image.png

的值具有如下两个特性：

该种方法要求在DBSCAN的第一步的寻找核心对象的时候，采用相关系数来判断一个类是否为核心对象：

image.png

因此，两个cluster是否合并，取决于两个cluster的最大相关系数是否大于给定的阈值，公式如下：

image.png

加速策略：

采用相关系数来替代空间密度的方法，最后聚的类不能采用球形那种判断策略，因此采用两个cluster的均值来代替。

image.png