聚类了解

  1. 聚类与分类的区别: 分类是已知各类别的属性值,将事物通过特征的筛选归并到已知的类别。聚类通过相似性的度量方式,将距离相近的归并到同一类,距离较大的归并到不同类。
  2. 相似性度量欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、余弦相似度、汉明距离、杰卡德距离& 杰卡德相似系数、皮尔逊相关系数、相关系数& 相关距离、信息熵
  3. 层次聚类:由下而上的合并cluster,优点:一次性得到整个聚类过程。缺点:层次聚类采用的是贪心算法,只能得到局部最优解

聚类了解_第1张图片

数据流的聚类算法

stream方法:采用分级聚类,但STREAM算法没有考虑数据流的演变,即算法没有给予最近的数据较大的权重。聚类的结果可能受控于过期的数据点。STREAM算法更趋近与一个批处理的过程,无法给出一个anytime的回应,即算法无法在任意时刻给出当前数据流的聚类结果。STREAM的不足还包括无法给出不同时间粒度的聚类结果等等。

基于层次的方法---clustream:联机的微聚类(micro clustering)和脱机的宏聚类(macro clustering).CluStream算法解决了STREAM算法的两个问题。即它是增量式(incremental)的聚类算法,在每个数据项到来时进行处理,能给出anytime的回应;并且,它使用Pyramidal时间框架,能给出不同时间粒度的聚类结果。这对于希望分别考察诸如上周、上月以及去年的聚类分析结果的用户意义重大

你可能感兴趣的:(聚类)