度量相似性数学建模_数模常规算法之聚类分析Cluster Analysis

数学建模学习第5天数理统计中的数值分类有两种问题:判别分析:已知分类情况,将位置个体归入正确的类别。(较为复杂的故障,分类后人工处理)

聚类分析:分类情况未知,对数据结构进行分类。(多用于事物的判断,例如网站的故障判别并处理)

聚类分析的定义

聚类分析是直接比较各事物之间的性质,将性质相近的归为衣蛾李,将性质差别较大的归入不同的类的分析技术。

聚类分析的基本思想

对所研究的样品或指标(变量)之间存在着程度不同的相似性(或亲疏关系)根据一批样本的多个指标,具体找出一些能够度量样品者指标之间的相似程度的统计量。

以这些统计量为分类的依据,把一些相似程度较大的样品(或指标)聚合为一类。

按相似程度的大小,把关系密切的样品聚合到一个小的分类单位,关系疏远的样品聚合到一个大的分类单位,直到所有样品都聚类完毕。

聚类对象

按聚类目的从对象中提取出能表现这个目的的特征指标,然后根据亲疏程度进行分类。Q型分类:针对样本。

R型分类:针对变量。对指标进行聚类时,根据相关系数或某种关联性度量来聚类。

Q样品间的“相似性”度量——距离

有时所用的距离不满足(iii),但在广义的角度上仍称为距离。常用的距离有如下几种:

6.马氏距离

R型聚类统计量

1.夹角余弦

2.相关系数。 对两个指标之间的相似程度用相似系数来刻画,相似系数绝对对值越接近于1,表示指标间的关系越密切。

系统聚类分析

系统聚类分析的基本思想:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,直到2每个样品(或变量)总能聚到合适的类中。

过程:n个样品,首先每个样品(或变量)独自聚成一类,然后根据所确定的样品(或变量)“距离公式”,将距离较近的两个样品(或变量)聚合为一类,其他样品(或变量)仍各自聚为 n-1类;再将距离较近的两个样品(或变量)聚合为一类,共聚成n-2类,直到最后所有的样品(或变量)聚合为一类。将整个分类系统地画成一张谱系图,所以有时系统聚类分析也叫谱系聚类分析。

你可能感兴趣的:(度量相似性数学建模)