层次聚类

试图在不同层次对数据集进行划分,从而形成树形的聚类结构。自顶向下或自底向上均可

AGNES :自底向上

初始所以样本为一个簇,每一步合并距离最近的簇进行合并

关键在于如何计算距离:

最小距离: 单链接

最大距离: 全链接

平均距离: 均链接

DIANA:自顶向下

分解:大类分解成更小的类,如何使得分类后的小类之间的相似度尽可能小,而类内数据之间的相似度尽可能大,即类间类内距离的测度

分解:类间、类内的相似度的大小程度的界定;

子类:每一次分解得到新的子类(数目,大小,代表点等)如何确定

 存在的问题:上述列出的几个关键点其实都跟该算法的问题紧密相关,作为一种无监督的聚类算法,由于是无监督的,事先并不知道最终要聚成多少类,那么又如何得知构建层次的时候中间层要聚成多少类呢?因此每一层的聚类数目是很难确定的,这样聚类层次就会呈现多样化,算法的稳定性也随之降低。另外,一个最突出的问题,自顶向下的方案,如果上层对数据分类错误,那么进一步分层量化时就会越错越远,这就要求,越是高层,越是尽可能的不能分错(高层类的数目少,但对分类精度要求大)。由于高层即使分错了,下面的层也不会纠错,因此这种单纯的自顶向下的层次聚类方案的聚类结果很粗糙,导致这种粗糙的最主要原因是由构建的树图结构造成的。

你可能感兴趣的:(层次聚类)