集群分析法(Cluster Analysis)

一、何谓集群分析法
众多的多变量分析方法中,集群分析法(cluster analysis)是比较简单的一种,统计学家通常应用集群分析法来对数据做简化的工作及分类,也就是把相似的个体(观测物)归于一群。然而相似的标准为何、多相似才能归为一群,则是我们需要探讨的问题。
集群分析分析出来的结果若没有信息(information),则结果究竟适不适合,也是一大考验,因此分析时的"目标"非常重要,在分析进行中各种因子的选择皆须视试验者的目标而做决定,不同的因子决策造成的结果也往往不同。

二、集群分析法的主要目的
 对数据作简化的工作及分类
 将相似的个体归为一群
 使同一群的差异最小

三、集群分析法之过程:
(一)搜集数据(Data collection)
在收集数据时,应先确立工作之目标,而后选择有代表性的,采用最好的单位测量,并且要注意数据是否得经过转换
(二)转换成相似矩阵(Transformation to similary matrix)
由于集群分析是把相似性大的物体归为一群,所以对于相似性的探讨也就格外重要,计算出物体间两两之相似系数(similation coef.)后,存放于矩阵中即为相似矩阵(similary matrix)。
四、阶层式集群分析(Hierarchical clustering methods)
根据相似性统计量,将样本或变量进行集群的主要方法为:
(一)系统集群法
系统集群法是目前国内外使用得最多的一种集群方法,这种方法是先将集群的样本或变量各自看成一群,然后确定群与群之间的相似统计量,并选择最接近的两群或若干个群合并成一个新群,计算新群与其它各群之间的相似性统计量,再选择最接近的两群或若干群合并成一个新群,直到所有的样本或变量都合并成一群为止。
常用的系统集群法是以距离为相似统计量时,确定新群与其它各群之间距离的方法,如最短距离法、最长距离法、中间距离法、重心法、群平均法、离差平方和法欧…等等。
(二)逐步集群法
系统集群法的优点是集群比较准确,缺点是集群的次数较多,每集群一次只能减少一群或若干个群,每一次都需要计算两两样品或小群之间的距离或其它相似性统计量,做起来比较麻烦。
至于逐步集群法做起来会方便一些,这种方法是先确定若干个样品为初始凝聚点,计算各样本与凝聚点的距离或其它相似性统计量,进行初始集群后,再根据初始集群计算各群的重心作为新的凝聚点,进行第二次集群,给一个初始的集群方案,再按照某种最优法则,逐步调整集群方案,直到得到最优的集群方案。
用逐步集群法解题的关键是凝聚点的选择及集群结果的调整,常用的方法有成批调整法、逐个调整法及离差平方和法。
(三)逐步分解法
这种方法是先将所有的样品或变量看成一群,然后再一次又一次地将某些群进行分解,直到各个群都不能分解为止。
(四)有序样本的集群
这种方法适用于有顺序的对象,集群后既保持了各个对象原有的顺序,又按照某种最优法则分割为若干个互有差异的群别。
集群分析的功能在将变量或观察值分类,也就是将最相似的变量或观察值合并成一个集群(CLUSTER)。集群分析与判别分析最大的不同在于:判别分析是将事先已分类好的观察值,选取有分类效果的样本,求其判别函数,将观察值进行适当分类;而集群分析则不需事先将观察值分类,直接以观察值的属性进行集群分析。
 

你可能感兴趣的:(Data,miner,and,Data,WareHouse,集群,transformation,matrix,methods,工作)