OPTICS 聚类

1 定义(核心点,核心距离,可达距离)

核心点(核心对象):ε邻域内,数据个数大于等于阈值的点。
核心距离:使每个点成为核心对象的最小距离。
可达距离:若x为核心点,则y关于x的可达距离为,y与x的欧氏距离和x的核心距离,中的最大值。

2 算法流程

输入:数据样本 D,初始化所有点的可达距离和核心距离为MAX,半径ε,阈值 MinPts。
1、建立两个队列,有序队列和结果队列。
2、如果D中非空,则从D中选择一个未处理的核心对象,将该核心对象放入结果队列,该核心点的直接密度可达点放入有序队列,直接密度可达点按可达距离升序排列;
3、如果有序队列为空,则回到步骤2,否则从有序队列中取出第一个点;
3.1 判断该点是否为核心点,不是则回到步骤3,是的话则将该点存入结果队列,否则回到步骤3
3.2 该点是核心点,然后找到其所有直接密度可达点,并将这些点放入有序队列,且将有序队列中的点按照可达距离重新排序,如果该点已经在有序队列中且新的可达距离较小,则更新该点的可达距离。
3.3 重复步骤3,直至有序队列为空。
4、算法结束。

1、从结果队列中按顺序取出点,如果该点的可达距离不大于给定半径ε,则该点属于当前类别,否则至步骤2;

2、如果该点的核心距离大于给定半径ε,则该点为噪声,可以忽略,否则该点属于新的聚类,跳至步骤1;

3、结果队列遍历结束,则算法结束。

你可能感兴趣的:(聚类)