DBSCAN-基于密度的聚类算法

1、 密度聚类基本概念

核心对象(core object):若x的e领域至少包含k(自定义)样本,则x是一个核心对象。
密度直达:描述的是核心样本点与其e领域内的样本点的关系,是密度直达的。
密度可达:描述的是核心对象与不在其e领域内的非核心点的关系,如果其可通过核心点间的传递密度直达,则密度可达。
密度相连:描述的是不在同一e领域内的非核心对象之间的关系。

DBSCAN-基于密度的聚类算法_第1张图片

疑问?同簇的核心对象与核心对象之间一定是密度直达的?

2、 算法基于的假设和数据结构

此类算法假设聚类结构能够通过样本分布的紧密程度确定。通常情形下,密度聚类算法从样本密度的角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果。

3、 密度聚类算法步骤

1)核心对象的确定:计算任意两个样本点之间的距离(距离计算方式可优化),生成距离矩阵;然后对于每个点,寻找与其相距距离小于e的样本点的个数(此距离对于核心对象而言,只将其他样本点区分为两类,一类是在领域内,一类在领域外,但是由关系图我们可以知道,域内非核心对象所处环境可以不一样,域外非核心对象所处环境也可以不一样),将e领域点数目大于阈值的样本点选为核心对象。
2)簇聚类:依次遍历核心对象,将核心对象密度可达的所有点,聚成一簇。最后没有找到组织的点即为异常点。

优点:
找到任意形状的簇
过滤掉异常值
非参数方法

缺点:
找不到具有不同密度的所有簇(算法基于的假设和数据结构决定的);
仅限于地位数据集(由于对任意样本点之间都要求距离);
运行时间以实例数量的方式的平方增长(计算距离的时间代价)。

你可能感兴趣的:(聚类)