基于密度的DBSCAN聚类及其优化的OPTICS聚类(一)

DBSCAN聚类算法:可以生成形状多样的类,并且可以检测出异常值和噪声点。但是对于输入参数敏感,如何提高DBSCAN聚类结果的准确性和可信度,是一个值得研究的趋势和方向。

OPTICS聚类算法:该算法定义了可达距离,其思想和DBSCAN算法一致,通过最小可达距离来刻画出一个样本点连接到一个类别的最小路线。但是OPTICS算法不是直接生成聚成几个类的结果,而是通过生成增广的类排序来生成一个可达距离图。通过该图可以得到一个广泛的距离阈值,可以克服DBSCAN聚类算法所运用的全局参数带来的缺陷。

1、DBSCAN聚类算法

介绍此算法将用一个核心思想,两个算法参数和三种点的类别来介绍。

一个核心思想

DBSCAN聚类算法的核心思想是用一个点的领域范围内存在着的邻居点数目以精确衡量得出该点所在的领域的密度。DBSCAN算法几乎都可以直接的找到样本点及其附近的全部的密集的区域,这些一个个密集的区域就是我们需要求得的一个个的聚类簇。

基于密度的DBSCAN聚类及其优化的OPTICS聚类(一)_第1张图片

 

两种算法参数:

DBSCAN算法中有两个算法参数。前者为距离阈值\varepsilon,后者为密度阈值MinPts

基于密度的DBSCAN聚类及其优化的OPTICS聚类(一)_第2张图片

 

三种点的类别:

领域半径内样本点数量大于阂值的点则称其为核心点不是一个核心点但在一个核心点的领域内点叫做边界点既不是核心点又不是边界点的是噪声点属于干扰数据集的点。、

基于密度的DBSCAN聚类及其优化的OPTICS聚类(一)_第3张图片

 

 

2、DBSCAN算法的优点:

  1. 可以生成灵活多变的不规则形状的聚类。因为其基于密度的特性,相比于基于距离只能生成球状簇的聚类算法如k-means、层次聚类,它的聚类结果都是灵活多变的不规则簇。

  2. 噪声点和离群点对于聚类结果影响非常微小。一般说,噪声点越多,聚类结果越容易有误差,噪声点越少,聚类结果越准确。但此类算法可以检测出噪声点,无论异常值是多还是少影响都比较小。

  3. 聚类结果不会有丝毫的偏移。k-means聚类算法都是人为地选择初始样本点,所以聚类完成会落入局部最优,聚类结果会产生偏移。但是DBSCAN聚类算法因其算法特性,聚类结果完全不会有丝毫的改变。

  4. 对于数据库中样本的数据顺序不敏感。随机给定数据顺序都不会影响聚类效果。

DBSCAN算法的缺点:

  1.  采用全局性表征密度参数。 对于高密度簇的核心点,在较小的领域内就可以至少有个点;对于低密度簇的核心点,在较大的领域内才可以有个点。所以该算法对于初始距离参数的选取要求很高。

  2.  不能很好地反映高维数据。样本集较大时,聚类时间较长。

  3.  对于初始参数敏感。调试算法的阈值参数组如果比较复杂一些时,主要特点就是有时需要考虑分别地对距离阈值、密度阈值进行另外一些的联合调参。不同的阈值组的阈值参数值的组合形式往往是对调试最后的算法结果的聚类质量和算法效果往往会都有着一些的较大的影响。

你可能感兴趣的:(聚类分析,聚类,算法,机器学习)