多元正态分析(3):聚类分析

3.1 简介

3.1.1 聚类分析概念

将分类对象(样本、指标)分成若干类,相似的归为一类

定量的指标之间相似性的度量:统计距离

统计距离包括:

注意:欧氏距离、绝对值距离、明考斯基距离、切比雪夫距离受量纲的影响!!使用前要将数据归一化。一维数据就不存在量纲问题了哦

3.2 系统聚类

3.2.1 最短距离法

(1)具体方法

多元正态分析(3):聚类分析_第1张图片

多元正态分析(3):聚类分析_第2张图片

以此类推最后的结果是:

多元正态分析(3):聚类分析_第3张图片

(2)画出谱系图

多元正态分析(3):聚类分析_第4张图片

最后决定类的个数与类,分两类比较合适,这时的阈值T应该等于1632(对标划分成一类的情况下,对应的最小值是1631.27,但是不能分成一类,所以阈值设为1632 比他稍微大一点就行!)

T=1632,等价于在图上距离为10的地方切一刀。

(3)缺点

最短距离法的主要缺点是:有链接聚合的趋势。因为类和类之间的距离为所有距离中的最小值,两者合并之后,他和其他类之间的距离减小,这样很容易形成一个比较大的类。所以最短距离法的聚类效果并不好,在实践中不提倡使用!

注意:最长距离法克服了链接聚合的缺点

3.2.2 最长距离法

多元正态分析(3):聚类分析_第5张图片

3.2.3 K-均值聚类

(1)具体例题

多元正态分析(3):聚类分析_第6张图片

多元正态分析(3):聚类分析_第7张图片

多元正态分析(3):聚类分析_第8张图片

(2)步骤

多元正态分析(3):聚类分析_第9张图片

(3)特点

K均值对初始分组太铭感了

多元正态分析(3):聚类分析_第10张图片

你可能感兴趣的:(算法)