系统聚类分为Q型聚类与R型聚类。前者对样品进行聚类,后者对变量进行聚类。在本文中,我们探讨对样品的分类。
聚类,在样品没有给定历史分类信息的前提下,仅依靠样品之间的相似性进行分类。对于“相似”的样品,将其分为一类。而这种相似性,将要依靠“距离”进行度量。
正如上述所说,根据样品间的相似性(靠近程度)进行聚类,样品间的靠近程度就利用距离进行衡量。
每个拥有p个变量观测值的样品可以看作p维空间中的一个点,若存在n个样品,即该空间就存在n个点。
利用距离来定义n个点中两两之间的距离,设有两点 x = ( x 1 , x 2 , . . . , x p ) T x=(x_1,x_2,...,x_p)^T x=(x1,x2,...,xp)T与 y = ( y 1 , y 2 , . . . , y p ) T y=(y_1,y_2,...,y_p)^T y=(y1,y2,...,yp)T
下面介绍几种距离:
度量两个类之间的距离:关于两个类之间的距离,度量方法不同,产生的聚类结果可能不同。
设 G 1 、 G 2 为 两 个 类 , d i j 为 G 1 中 第 i 个 样 品 与 第 j 个 样 品 之 间 的 距 离 G_1、G_2为两个类,d_{ij}为G_1中第i个样品与第j个样品之间的距离 G1、G2为两个类,dij为G1中第i个样品与第j个样品之间的距离:
主要思想: 有n个样品,初始状态为n类。首先找出最“相似”的两个样品归为一类,这时,总共有n-1类。再从n-1类中找到距离最近的两类,将其化为一类,重复此操作,不断迭代,直到所有样品归为一个大类。将上述过程可以画成一张树状图,按一定的原则将其分为几类。
例:
主要思想:事先决定聚类结果的种类数,首先先粗略的将所有样本分为k类,然后根据某种最优准则对各类中的点判断该点的现有分类是否合理,修改不合理(例如G1内的A点到G1中心的距离比A点到其它类中心的距离还要长)的分类。直到所有点都合理(类内距离小,类间距离大),结束。
标准过程:
练习1:
五个一维样品点1,2,4,8,11做K均值聚类,初始分类为 G 1 = ( 1 , 4 , 11 ) , G 2 = ( 2 , 8 ) G_1=(1,4,11),G_2=(2,8) G1=(1,4,11),G2=(2,8),请完成后续的K均值聚类步骤。
练习2:
拟使用K均值聚类对下列四个样本点进行聚类: A = ( 5 , 4 ) T , B = ( 1 , − 2 ) T , C = ( − 1 , 1 ) T , D = ( 3 , 1 ) T A=(5,4)^T,B=(1,-2)^T,C=(-1,1)^T,D=(3,1)^T A=(5,4)T,B=(1,−2)T,C=(−1,1)T,D=(3,1)T设定初始聚类为{A,B}和{C,D},请写出K均值聚类完整迭代过程,并给出聚类结果。