多元统计分析--聚类分析(系统性聚类、K均值聚类)

摘要

系统聚类分为Q型聚类与R型聚类。前者对样品进行聚类,后者对变量进行聚类。在本文中,我们探讨对样品的分类。

文章目录

  • 摘要
  • 主要思想
  • 相似性的度量
  • 系统聚类
  • K均值聚类

主要思想

聚类,在样品没有给定历史分类信息的前提下,仅依靠样品之间的相似性进行分类。对于“相似”的样品,将其分为一类。而这种相似性,将要依靠“距离”进行度量。

相似性的度量

正如上述所说,根据样品间的相似性(靠近程度)进行聚类,样品间的靠近程度就利用距离进行衡量。
每个拥有p个变量观测值的样品可以看作p维空间中的一个点,若存在n个样品,即该空间就存在n个点。
利用距离来定义n个点中两两之间的距离,设有两点 x = ( x 1 , x 2 , . . . , x p ) T x=(x_1,x_2,...,x_p)^T x=(x1,x2,...,xp)T y = ( y 1 , y 2 , . . . , y p ) T y=(y_1,y_2,...,y_p)^T y=(y1,y2,...,yp)T
下面介绍几种距离:

  1. 欧氏距离
    d 2 ( x , y ) = ∑ i = 1 p ( x i − y i ) 2 = ( x − y ) T ( x − y ) d^2(x,y)=\sum_{i=1}^p(x_i-y_i)^2=(x-y)^T(x-y) d2(x,y)=i=1p(xiyi)2=(xy)T(xy)
  2. 绝对距离
    d 2 ( x , y ) = ∑ i = 1 p ∣ x i − y i ∣ d^2(x,y)=\sum_{i=1}^p|x_i-y_i| d2(x,y)=i=1pxiyi
  3. 切氏距离
    d 2 ( x , y ) = max ⁡ i ∣ x i − y i ∣ d^2(x,y)=\max_{i}|x_i-y_i| d2(x,y)=imaxxiyi
  4. 明氏距离
    d 2 ( x , y ) = ∑ i = 1 p ∣ x i − y i ∣ k k d^2(x,y)=\sqrt[k]{\sum_{i=1}^p|x_i-y_i|^k} d2(x,y)=ki=1pxiyik
    k=1,明氏距离就是绝对距离;k=2,就是欧氏距离;k= ∞ \infty ,就是切氏距离
  5. 兰氏距离
    d 2 ( x , y ) = ∑ i = 1 p ∣ x i − y i ∣ ∣ x i + y i ∣ d^2(x,y)=\sum_{i=1}^p\frac{|x_i-y_i|}{|x_i+y_i|} d2(x,y)=i=1pxi+yixiyi
  6. 马氏距离
    d 2 ( x , y ) = ( x − y ) T Σ − 1 ( x − y ) d^2(x,y)=(x-y)^T\Sigma^{-1}(x-y) d2(x,y)=(xy)TΣ1(xy)

度量两个类之间的距离:关于两个类之间的距离,度量方法不同,产生的聚类结果可能不同。
G 1 、 G 2 为 两 个 类 , d i j 为 G 1 中 第 i 个 样 品 与 第 j 个 样 品 之 间 的 距 离 G_1、G_2为两个类,d_{ij}为G_1中第i个样品与第j个样品之间的距离 G1G2dijG1ij

  1. 最小距离法
    D 12 = m i n   d i j D_{12}=min~d_{ij} D12=min dij
  2. 最大距离法
    D 12 = m a x   d i j D_{12}=max~d_{ij} D12=max dij
  3. 中间距离法: G 2 = ( G 3 , G 4 ) G_2=(G_3,G_4) G2=(G3,G4)
    D 12 = 1 2 D 13 + 1 2 D 14 − 1 4 D 34      ( 递 推 公 式 ) D_{12}=\frac{1}{2}D_{13}+\frac{1}{2}D_{14}-\frac{1}{4}D_{34}~~~~(递推公式) D12=21D13+21D1441D34    ()
  4. 重心距离法:分别求出两个总体的重心点,两重心点的距离就是总体之间的距离。
    11.离差平方和法:遵循方差的思想,如果分类正确,那么类内的点离差平方和足够小,类和类之间的离差平方和足够大

系统聚类

主要思想: 有n个样品,初始状态为n类。首先找出最“相似”的两个样品归为一类,这时,总共有n-1类。再从n-1类中找到距离最近的两类,将其化为一类,重复此操作,不断迭代,直到所有样品归为一个大类。将上述过程可以画成一张树状图,按一定的原则将其分为几类。
例:
多元统计分析--聚类分析(系统性聚类、K均值聚类)_第1张图片
多元统计分析--聚类分析(系统性聚类、K均值聚类)_第2张图片
多元统计分析--聚类分析(系统性聚类、K均值聚类)_第3张图片

K均值聚类

主要思想:事先决定聚类结果的种类数,首先先粗略的将所有样本分为k类,然后根据某种最优准则对各类中的点判断该点的现有分类是否合理,修改不合理(例如G1内的A点到G1中心的距离比A点到其它类中心的距离还要长)的分类。直到所有点都合理(类内距离小,类间距离大),结束。
多元统计分析--聚类分析(系统性聚类、K均值聚类)_第4张图片
标准过程:
多元统计分析--聚类分析(系统性聚类、K均值聚类)_第5张图片
练习1:
五个一维样品点1,2,4,8,11做K均值聚类,初始分类为 G 1 = ( 1 , 4 , 11 ) , G 2 = ( 2 , 8 ) G_1=(1,4,11),G_2=(2,8) G1=(1,4,11),G2=(2,8),请完成后续的K均值聚类步骤。

练习2:
拟使用K均值聚类对下列四个样本点进行聚类: A = ( 5 , 4 ) T , B = ( 1 , − 2 ) T , C = ( − 1 , 1 ) T , D = ( 3 , 1 ) T A=(5,4)^T,B=(1,-2)^T,C=(-1,1)^T,D=(3,1)^T A=(5,4)T,B=(1,2)T,C=(1,1)T,D=(3,1)T设定初始聚类为{A,B}和{C,D},请写出K均值聚类完整迭代过程,并给出聚类结果。

多元统计分析--聚类分析(系统性聚类、K均值聚类)_第6张图片

你可能感兴趣的:(统计,聚类,均值算法,机器学习)