聚类算法之DBSCAN

1. 算法描述

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个有代表性的基于密度的聚类算法。DBScan需要二个参数: 扫描半径 (eps)和最小包含点数(minPts)。 任选一个未被访问(unvisited)的点开始,找出与其距离在eps之内(包括eps)的所有附近点。如果附近点的数量 ≥ minPts,则当前点与其附近点形成一个簇,并且出发点被标记为已访问(visited)。 然后递归,以相同的方法处理该簇内所有未被标记为已访问(visited)的点,从而对簇进行扩展。如果 附近点的数量 < minPts,则该点暂时被标记作为噪声点

2. 算法性能分析

2.1 优点

  1. 不需要划分个数
  2. 可以处理噪声点
  3. 可以处理任意形状的空间聚类问题

2.2 缺点

  1. 需要指定最小样本量和半径两个参数
  2. 数据量大时开销也很大 (因为需要遍历所有的样本对象)
  3. 如果样本的密度不均匀、聚类间的差距相差很大时,聚类质量较差

你可能感兴趣的:(#,数据挖掘与机器学习,聚类,算法)