聚类算法之DBScan(C++)

       DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现意形状的聚类。


        完整C++代码可在 CSDN 或 @DiamonJoy 下载

        (最近收到很多小童鞋的邮件和私信,反映数据量过大时程序崩掉的问题,本人测试后上万数据点确实会导致程序崩溃,代码为本人本科课程设计作业旨在复现算法思路,并未针对大规模实际数据问题进行优化,仅供算法学习参考。)


DBScan需要二个参数: 扫描半径 (eps)和最小包含点数(minPts)。 任选一个未被访问(unvisited)的点开始,找出与其距离在eps之内(包括eps)的所有附近点。
如果 附近点的数量 ≥ minPts,则当前点与其附近点形成一个簇,并且出发点被标记为已访问(visited)。 然后递归,以相同的方法处理该簇内所有未被标记为已访问(visited)的点,从而对簇进行扩展。
如果 附近点的数量 < minPts,则该点暂时被标记作为噪声点。
如果簇充分地被扩展,即簇内的所有点被标记为已访问,然后用同样的算法去处理未被访问的点。

具体算法描述如下:
(1)检测数据库中尚未检查过的对象 p,如果 p为被处理(归为某个簇或者标记为噪声),则检查其邻域,若包含的对象数不小于minPts,建立新簇 C,将其中的所有点加入候选集 N
(2)对候选集 中所有尚未被处理的对象 q,检查其邻域,若至少包含minPts个对象,则将这些对象加入N;如果 未归入任何一个簇,则将 加入 C
(3)重复步骤2),继续检查 中未处理的对象,当前候选集 N为空
(4)重复步骤1)~3),直到所有对象都归入了某个簇或标记为噪声。

优点:
  • 与K-means方法相比,DBSCAN不需要事先知道要形成的簇类的数量。
  • 与K-means方法相比,DBSCAN可以发现任意形状的簇类。
  • 同时,DBSCAN能够识别出噪声点。
  • DBSCAN对于数据库中样本的顺序不敏感,即Pattern的输入顺序对结果的影响不大。但是,对于处于簇类之间边界样本,可能会根据哪个簇类优先被探测到而其归属有所摆动。

缺点:
  • DBScan不能很好反映高尺寸数据。
  • DBScan不能很好反映数据集以变化的密度。

你可能感兴趣的:(算法漫漫路,聚类算法,DBScan,C++代码)