第十四章聚类方法.14.2.3距离公式证明

文章目录

  • 主要内容
  • 系统聚类法的性质
    • 1、 单调性
    • 2、 空间的浓缩和扩张
  • 系统聚类法的比较

本课程来自深度之眼,部分截图来自课程视频以及李航老师的《统计学习方法》第二版。
公式输入请参考: 在线Latex公式

主要内容

系统聚类法单调性:定义与表达式,实际含义
定义法证明单调性:由定义证明最长距离法、最短距离法的单调性
公式法证明单调性:由距离递推公式证明类平均法、可变类平均法、可变法、Ward法的单调性
重心法的距离递推公式:证明方法a与b
Ward法的距离递推公式:基于重心法距离递推公式的证明
空间的浓缩与扩张:矩阵大小的定义,聚类方法的浓缩与扩张的定义
聚类案例:离差平方和法:基于欧式距离的离差平方和法确定聚类数k
系统聚类法的比较:聚类方法的收缩与扩张

系统聚类法的性质

1、 单调性

在聚类分析过程中,并类距离分别为 d k ( k = 1 , 2 , 3 , ⋯   ) d_k(k=1,2,3,\cdots) dk(k=1,2,3,),若满⾜:
d 1 ≤ d 2 ≤ ⋯ ≤ d k ≤ d k + 1 ≤ ⋯ d_1\le d_2\le\cdots\le d_k\le d_{k+1}\le\cdots d1d2dkdk+1
(依次递增)则称该聚类⽅法具有单调性。
除重⼼法和中间距离法外,其他系统聚类法均满⾜单调性条件。
下面是并类距离的通用表达公式,加入了惩罚因子:
d k γ 2 = α p d k p 2 + α q d k q 2 + β d p q 2 + γ ∣ d k p 2 − d k q 2 ∣ d^2_{k\gamma}=\alpha_pd^2_{kp}+\alpha_qd^2_{kq}+\beta d^2_{pq}+\gamma|d^2_{kp}-d^2_{kq}| dkγ2=αpdkp2+αqdkq2+βdpq2+γdkp2dkq2
可以利⽤距离平⽅的递推公式可证明:类平均法、可变类平均法、可变法、Ward法的单调性
[例题]从定义直接证明最⻓和最短距离法的单调性:
数学公式就不写了,本身用最短距离法产生并类,每次都是取最短距离的两个类进行合并,因此每次产生的并类距离都是依次递增的。

[例题]利⽤距离平⽅的递推公式可证明:类平均法、可变类平均法、可变法、Ward法的单调性
上面四类方法的 γ = 0 \gamma=0 γ=0,因此
d k γ 2 = α p d k p 2 + α q d k q 2 + β d p q 2 d^2_{k\gamma}=\alpha_pd^2_{kp}+\alpha_qd^2_{kq}+\beta d^2_{pq} dkγ2=αpdkp2+αqdkq2+βdpq2
当系数满足:
α p ≥ 0 , α q ≥ 0 , α p + α q + β ≥ 1 \alpha_p\ge0,\alpha_q\ge0,\alpha_p+\alpha_q+\beta \ge1 αp0,αq0,αp+αq+β1
则可以为上上式找出一个下界,因为: d k p 2 ≥ d p q 2 , d k q 2 ≥ d p q 2 d^2_{kp}\ge d^2_{pq},d^2_{kq}\ge d^2_{pq} dkp2dpq2,dkq2dpq2,(第L步选择了pq合并,因此pq并类距离最小)则:
d k γ 2 = α p d k p 2 + α q d k q 2 + β d p q 2 ≥ ( α p + α q + β ) d p q 2 d^2_{k\gamma}=\alpha_pd^2_{kp}+\alpha_qd^2_{kq}+\beta d^2_{pq}\ge(\alpha_p+\alpha_q+\beta)d^2_{pq} dkγ2=αpdkp2+αqdkq2+βdpq2(αp+αq+β)dpq2
由条件: α p + α q + β ≥ 1 \alpha_p+\alpha_q+\beta \ge1 αp+αq+β1
上面可以继续缩放:
d k γ 2 = α p d k p 2 + α q d k q 2 + β d p q 2 ≥ ( α p + α q + β ) d p q 2 ≥ d p q 2 d^2_{k\gamma}=\alpha_pd^2_{kp}+\alpha_qd^2_{kq}+\beta d^2_{pq}\ge(\alpha_p+\alpha_q+\beta)d^2_{pq}\ge d^2_{pq} dkγ2=αpdkp2+αqdkq2+βdpq2(αp+αq+β)dpq2dpq2
也就得到并类距离满足:
D L + 1 ≥ D L D_{L+1}\ge D_L DL+1DL
有了这个结论,现在就是要把四个方法的系数带进来,并证明四个方法的系数满足
α p ≥ 0 , α q ≥ 0 , α p + α q + β ≥ 1 \alpha_p\ge0,\alpha_q\ge0,\alpha_p+\alpha_q+\beta \ge1 αp0,αq0,αp+αq+β1
具体步骤省略。

2、 空间的浓缩和扩张

(1)定义矩阵大小:
设A和B为同阶矩阵,若 A A A的每⼀个元素不小于 B B B中对应位置的元素,则记作 A ≥ B A≥B AB
(2)聚类⽅法浓缩与扩张:
设两种系统聚类法 A A A B B B,在第 i i i步的距离矩阵分别为 A i A_i Ai B i ( i = 1 , 2 , 3 … ) B_i(i=1,2,3…) Bii=123,若$A_i>B_i , 则 称 ⽅ 法 ,则称⽅法 A ⽐ ⽅ 法 ⽐⽅法 B 使 空 间 扩 张 , 或 ⽅ 法 使空间扩张,或⽅法 使B ⽐ ⽅ 法 ⽐⽅法 A$浓缩。

[例题]
已知5个样品,对每样品考察特定指标得数据:1,2,5,7,10。试基于欧⽒距离,运⽤离差平⽅和法求5个样品分为k类( k = 5 , 4 , 3 , 2 , 1 k=5,4,3,2,1 k5,4,3,2,1)的分类法 b k b_k bk
这里用欧氏距离计算两个样本的距离是这样算的:
2 ↔ 5 , ( 5 − 2 ) 2 2 = 9 2 1 ↔ 7 , ( 7 − 1 ) 2 2 = 36 2 ⋯ 2\leftrightarrow 5,\cfrac{(5-2)^2}{2}=\cfrac{9}{2}\\ 1\leftrightarrow 7,\cfrac{(7-1)^2}{2}=\cfrac{36}{2}\\ \cdots 25,2(52)2=2917,2(71)2=236
因此可以写成距离矩阵:
D ( 1 ) = 1 2 [ 0 1 16 36 81 1 0 9 25 64 16 9 0 4 25 36 25 4 0 9 81 64 25 9 0 ] D^{(1)}=\cfrac{1}{2}\begin{bmatrix} 0 & 1 & 16& 36 &81 \\ 1 & 0& 9& 25& 64\\ 16& 9 & 0 & 4 & 25\\ 36 &25 &4 & 0&9 \\ 81 & 64 & 25 & 9 & 0 \end{bmatrix} D(1)=210116368110925641690425362540981642590
可以看到这里面1和2距离最小,因此加入集合:
C L 4 = { 1 , 2 } , D 1 = ( 2 − 1 ) 2 2 = 0.707 CL_4=\{1,2\},D_1=\sqrt{\cfrac{(2-1)^2}{2}}=0.707 CL4={ 1,2},D1=2(21)2 =0.707
然后算新类到样本:5的距离:
D r k 2 = n k + n p n r + n k D p k 2 + n k + n q n r + n k D q k 2 + n k n r + n k D p q 2 D^2_{rk}=\cfrac{n_k+n_p}{n_r+n_k}D^2_{pk}+\cfrac{n_k+n_q}{n_r+n_k}D^2_{qk}+\cfrac{n_k}{n_r+n_k}D^2_{pq} Drk2=nr+nknk+npDpk2+nr+nknk+nqDqk2+nr+nknkDpq2
这里新类有2个元素, n r = 2 n_r=2 nr=2,样本5是一个元素,因此 n k = 1 n_k=1 nk=1,分别对新类里面的两个元素有: n p = 1 , n q = 1 n_p=1,n_q=1 np=1,nq=1,然后 D p k 2 = 1 ↔ 5 , ( 5 − 1 ) 2 2 = 16 2 D^2_{pk}=1\leftrightarrow 5,\cfrac{(5-1)^2}{2}=\cfrac{16}{2} Dpk2=15,2(51)2=216
D 1 k 2 = 2 ↔ 5 , ( 5 − 2 ) 2 2 = 9 2 D^2_{1k}=2\leftrightarrow 5,\cfrac{(5-2)^2}{2}=\cfrac{9}{2} D1k2=25,2(52)2=29
带入上面的公式:
D r k 2 = 49 6 D^2_{rk}=\cfrac{49}{6} Drk2=649
同理可以计算新类到其他两个样本的距离为: 121 6 , 289 6 \cfrac{121}{6},\cfrac{289}{6} 6121,6289,因此得到
D ( 2 ) = [ 0 49 6 121 6 289 6 49 6 0 2 12.5 121 6 2 0 4.5 289 6 12.5 4.5 0 ] D^{(2)}=\begin{bmatrix} 0 & \cfrac{49}{6} & \cfrac{121}{6}& \cfrac{289}{6} \\ \cfrac{49}{6} & 0& 2& 12.5\\ \cfrac{121}{6}& 2 & 0 & 4.5 \\ \cfrac{289}{6} &12.5&4.5 & 0 \end{bmatrix} D(2)=0649612162896490212.56121204.5628912.54.50
从矩阵可以得到新类为: C L 3 = { 5 , 7 } , D 2 = 1.414 CL_3=\{5,7\},D_2=1.414 CL3={ 5,7},D2=1.414
再按公式算 C L 3 , C L 4 CL_3,CL_4 CL3,CL4类间距的时候, n r = 2 , n k = 2 n_r=2,n_k=2 nr=2,nk=2,带入公式后:
1 + 2 2 + 2 49 6 + 1 + 2 2 + 2 121 6 − 2 2 + 2 2 = 81 4 \cfrac{1+2}{2+2}\cfrac{49}{6} +\cfrac{1+2}{2+2}\cfrac{121}{6}-\cfrac{2}{2+2}2=\cfrac{81}{4} 2+21+2649+2+21+261212+222=481
按公式算 C L 3 CL_3 CL3到样本:10的类间距:
1 + 1 2 + 1 12.5 + 1 + 1 2 + 1 4.5 − 1 2 + 1 2 = 32 3 \cfrac{1+1}{2+1}12.5+\cfrac{1+1}{2+1}4.5-\cfrac{1}{2+1}2=\cfrac{32}{3} 2+11+112.5+2+11+14.52+112=332
这个时候得到第三个距离矩阵:
D ( 3 ) = C L 3 C L 4 10 [ 0 81 4 32 3 81 4 0 289 2 32 3 289 2 0 ] D^{(3)}=\begin{matrix} CL_3\\ CL_4\\ 10\end{matrix}\begin{bmatrix} 0 & \cfrac{81}{4}& \cfrac{32}{3}\\ \cfrac{81}{4} & 0 &\cfrac{289}{2} \\ \cfrac{32}{3} & \cfrac{289}{2} & 0 \end{bmatrix} D(3)=CL3CL41004813324810228933222890
这里可以看到 32 3 \cfrac{32}{3} 332最小,因此: C L 2 = { 10 , C L 3 } , D 3 = 32 3 = 3.266 CL_2=\{10,CL_3\},D_3=\sqrt{\cfrac{32}{3} }=3.266 CL2={ 10,CL3},D3=332 =3.266
再次计算 C L 2 , C L 4 CL_2,CL_4 CL2,CL4类间距,此时 n r = 3 , n k = 2 n_r=3,n_k=2 nr=3,nk=2,带入公式:
1 + 2 3 + 2 289 6 + 2 + 2 3 + 2 81 4 − 2 3 + 2 32 3 = 245 6 \cfrac{1+2}{3+2}\cfrac{289}{6}+\cfrac{2+2}{3+2}\cfrac{81}{4}-\cfrac{2}{3+2}\cfrac{32}{3}=\cfrac{245}{6} 3+21+26289+3+22+24813+22332=6245
得到第四个距离矩阵:
D ( 4 ) = C L 2 C L 4 [ 0 245 6 245 6 0 ] D^{(4)}=\begin{matrix} CL_2\\ CL_4 \end{matrix}\begin{bmatrix} 0 & \cfrac{245}{6}\\ \cfrac{245}{6} & 0 \end{bmatrix} D(4)=CL2CL40624562450
得到 D 4 = 245 6 = 6.39 D_4=\sqrt{\cfrac{245}{6}}=6.39 D4=6245 =6.39
完毕,这里我们看到: D 1 < D 2 < D 3 < D 4 D_1D1<D2<D3<D4,空间距离递增。

系统聚类法的比较

D ( 最 短 距 离 法 ) ≤ D ( 类 平 均 法 ) D ( 重 心 法 ) ≤ D ( 类 平 均 法 ) D ( 最 长 距 离 法 ) ≥ D ( 类 平 均 法 ) D_{(最短距离法)}\le D_{(类平均法)}\\ D_{(重心法)}\le D_{(类平均法)}\\ D_{(最长距离法)}\ge D_{(类平均法)} D()D()D()D()D()D()
当 0 < β < 1 , D ( 可 变 类 平 均 法 ) ≤ D ( 类 平 均 法 ) 当0<\beta<1,D_{(可变类平均法)}\le D_{(类平均法)} 0<β<1,D()D()
当 β < 0 , D ( 可 变 类 平 均 法 ) ≥ D ( 类 平 均 法 ) 当\beta<0,D_{(可变类平均法)}\ge D_{(类平均法)} β<0,D()D()

你可能感兴趣的:(统计学习方法)