使用计算机生成的数据集进行聚类分析,实验二、聚类分析

? 夹角余弦

变量,αβx x 的观测值 1212(,,...,)(,,...,)T T n n x x x x x x αααβββ与,其夹角余弦定义为:

n

i

i

x x c αβ

αβ=

a3c76036fc712430dfb9ca556d7832b8.png

∑变量聚类通常称为 R 型聚类。在 R 型聚类中,相似系数矩阵 C 是出发点,相似系数矩阵可以是相关矩阵,也可以是夹角余弦矩阵。 ⑵ 谱系聚类法

① 类间距离定义

为简单起见,以i ,j 分别表示样品,i j x x ,以d ij 简记i ,j 之间的距离(,)i j d x x 。G p ,G q 分别表示两个类,设它们分别含有n p ,n q 个样品。若类G p 中有样品12,,...,p n x x x ,则其均值

1

1p

n p i i p

x x

n ==

称为类 G p 的重心。类G p 与G q 之间的距离记为 D pq ,有多种多样定义方式。

? 最短距离

,min p q

pq ij i G j G D d ∈∈=

? 最长距离

,max p q

pq ij i G j G D d ∈∈=

? 类平均距离

1p q

pq ij

i G j G p q

D d

n n ∈∈=

∑∑

? 重心距离

(,)pq p q D d x x =

? 离差平方和距离

2()()p q T pq p q p q p q

n n D x x x x n n =

--+

② 类间距离的递推公式

按照谱系聚类法的思想,先将样品聚合成小类,在逐步扩大为大类。设类 G r 由类

G p 、G q 合并所得,则G r 包含n r =n p +n q 个样品。

问题:由G p ,G q 与其它类G k (k≠p,q)的距离计算G r 与G k (k≠p,q )的距离,即建立类间距离的递推公式。

? 最短距离

min{,}rk pk qk D D D =

? 最长距离

max{,}rk pk qk D D D =

? 类平均距离

p q rk pk qk r

r

n n D D D n n =

+

你可能感兴趣的:(使用计算机生成的数据集进行聚类分析,实验二、聚类分析)