DBSCAN 简记

一、DBSCAN 简记

1.先上图

DBSCAN 简记_第1张图片

上图写了DBSCN算法的具体步骤:

DBSCAN 简记_第2张图片

2.参数主要由半径R,主要用来寻找核心点P的邻域,min_samples为圆内点的最小点数,如果大于等于则认为中心点有效。

3.流程:

1. 随意选择一个未被访问过的点,然后寻找半径为R的点内的圆内的点。
2. 看圆内的点的个数 是否大于 min_samples?
是:把p当作中心点,然后创建个聚类C,然后把P标记为已访问。
否:把P标记为早点,已访问。
3.遍历核心点P在R邻域内的所有点,都标记为C类别。
然后把R内的所有点都当作是核心点,去侵蚀旁边的点,可以侵蚀的到则标记为C类别,重复3操作,直到我找不到离我很近的点。
4.重复完2-3后生成了C类别。
5.将全部数据信息减去C类别的数据,然后重复1步骤,最终选择出所有的类别,即所有的点均被访问过。

其中:

DBSCAN 简记_第3张图片
DBSCAN 简记_第4张图片

核心点:邻域半径R内样本点的数量大于等于min_samples的点。

边界点:点Q不属于核心点但在某个核心点P的邻域内的点,即在某个核心点的R邻域内,但是Q这个点的半径R内的点不满足min_sample的数量。

噪声点:既不是核心点也不是边界点的是。

二、优点:

1。无需指定聚类的个数。

2。对类别的形状没有要求。

3。对于外点不敏感,对噪声稳定。

三、缺点:

1。基于密度的,所以对于两个类别,如果中间有数据连接,且满足min_samples的数量,则两个类别就会当成是一个类别。

2。对于高维数据处理的不好。

参考链接

你可能感兴趣的:(机器学习)