流聚类算法之CluStream

CluStream

  • 前言
  • 一、CluStream算法的切入点
  • 二、CluStream算法核心思想
  • 三、CluStream算法的两阶段
    • 3.1 在线阶段
    • 3.2 离线阶段
  • CluStream算法的缺点
  • 总结


前言

本文简要介绍了数据流聚类算法中的CluStream算法,从算法的切入点、算法核心思想、算法的两阶段流程以及缺点进行阐述。


一、CluStream算法的切入点

(1)可以有效的存储在连续数据流中的摘要信息的性质是什么?

(2)摘要信息什么时候被存储在磁盘上?

(3)如何使用周期的数据在用户指定的时间范围内提供聚类的结果?

二、CluStream算法核心思想

  对于一个d维的数据集xi1,xi2,…,xin ,并且带有时间戳Ti1,Ti2,…,Tin,在磁盘中存储的是关键集群的统计信息
在这里插入图片描述
  该信息具有可加性,方便在用户需要某一时间段的聚类结果时,进行操作;

  微簇存储在流中的特定时刻叫做快照。但是不能将每一时刻的快照都存储下来,因此引入了加粗样式,并且将快照存储在不同的粒度级别上。快照被分为不同的顺序,从1到log(T),每一个粒度存储的快照数目为(2α+1),所以在时间T范围内,存储的最大的快照的数目为(2α+1)log(T)
流聚类算法之CluStream_第1张图片

三、CluStream算法的两阶段

3.1 在线阶段

  首先根据K-mens算法生成p个初始的聚类中心,并为每一个簇提供一个独一无二的ID,其中P是大于具体的聚类数目但是要远远小于具体数据点的个数。

  对于每一个到来的数据点,要么被现有的微集群吸收(是否在一个集群的最大边界内-均值根偏差RMS),要么自己成立一个集群。但是数据点不属于现有的集群有两种情况,一种是该点是一个异常点,第二种是该点是一个新集群的起始点。

  那么如果要新建立一个集群的话,就需要将已有的集群删除一个或者合并两个相似的集群。若要删除一个集群的话,首先判断删除该集群是否会有不良的影响,所以根据该集群的数据点的时间戳信息来判断,如果该簇的时间戳不满足设定的阈值,将其删除。合并集群的话,将两个最近的集群进行合并。

3.2 离线阶段

  根据用户输入的需要查看的时间,从特征金字塔中取出两个时间段的汇总信息,相减之后就得到用户所需时间段的近似数据集,在此基础上进行聚类即可。

CluStream算法的缺点

  CluStream通过使用倾斜时间框架,保存了数据流演变的历史信息,在数据流变化剧烈时仍可以产生高质量的聚类结果,并且提供了丰富的功能。但是,它没有考虑历史数据的衰减问题,即没有体现出近期数据的重要性。此外,当被应用于高维数据流的聚类时,CluStream算法往往表现不佳。


总结

本文简单对CluStream算法进行了总结概括,如果有不足之处或者表述不当的地方欢迎大家指正。

你可能感兴趣的:(流聚类,算法,聚类,大数据)