多元:复相关系数和偏相关系数

本文就对多元统计中的复相关系数和偏相关系数进行阐述和说明。

1.复相关系数(Multi-correlation coefficient)

指度量   y \ y  y 与其最优线性预测 y ~ \widetilde y y 之间的相关系数。 也即有一个随机变量   y \ y  y 和一组随机变量   x = ( x 1 , x 2 , … , x p ) ′ \ x=(x_1,x_2,\dots,x_p)'  x=(x1,x2,,xp) , 现在寻找   y \ y  y 和该组   x \ x  x 变量之间的整体相关性。

在一般情况下,   y \ y  y   x \ x  x组成员   x i \ x_i  xi 都具有一定的相关性。比如在人体素质测试中,若有 肺活量 为   y \ y  y,以及年龄(   x 1 \ x_1  x1)、体重(   x 2 \ x_2  x2)、800米跑步时间(   x 3 \ x_3  x3)、休息时的脉搏(   x 4 \ x_4  x4)和跑步时的脉搏(   x 5 \ x_5  x5)六个测试项目。肺活量与其余5个变量中的每一个都具有相关性。而我们想要研究肺活量与其余五个变量之间的整体相关性。

为做到这点,首先找到一个线性组合   l ′ x \ l'x  lx   x \ x  x 中包含的关于   y \ y  y 的信息最大限度地提取出来,然后计算   y \ y  y 与 线性组合   l ′ x \ l'x  lx 之间的相关性,此即为复相关系数,表示为 ρ y ⋅ x \rho_{y·x} ρyx / ρ y ⋅ 1 , 2 , 3 , … , p \rho_{y·1,2,3,\dots,p} ρy1,2,3,,p / ρ ( y , l ′ x ) \rho(y,l'x) ρ(y,lx)

根据相关系数定义,我们有 ρ 2 ( y , l ′ x ) = C o v ( y , l ′ x ) V ( y ) ∗ V ( l ′ x ) = ( σ y x l ′ ) 2 σ y y ∗ l ′ Σ x x l . \rho^{2}(y,l'x)=\frac{Cov(y,l'x)}{V(y)*V(l'x)}=\frac {(\sigma_{yx}l')^2}{\sigma_{yy}*l'\Sigma_{xx}l}. ρ2(y,lx)=V(y)V(lx)Cov(y,lx)=σyylΣxxl(σyxl)2.
通过柯西—施瓦茨不等式

设有一   B > 0 \ B>0  B>0,则有   ( x ′ y ) 2 ⩽ ( x ′ B x ) ( y ′ B − 1 y ) . \ (x'y)^2\leqslant (x'Bx)(y'B^{-1}y).  (xy)2(xBx)(yB1y).等号成立当且仅当   x = c B − 1 y \ x=cB^{-1}y  x=cB1y   y = c B x \ y=cBx  y=cBx   c \ c  c为常数。

  B = Σ x x − 1 \ B=\Sigma_{xx}^{-1}  B=Σxx1,得到复相关系数的平方为 ρ 2 ( y , l ′ x ) ⩽ ( σ x y ′ Σ x x − 1 σ x y ) ( l ′ Σ x x l ) σ y y ∗ ( l ′ Σ x x l ) = σ x y ′ Σ x x − 1 σ x y σ y y . \rho^{2}(y,l'x)\leqslant\frac{(\sigma_{xy}'\Sigma_{xx}^{-1}\sigma_{xy})(l'\Sigma_{xx}l)}{\sigma_{yy}*(l'\Sigma_{xx}l)}=\frac{\sigma_{xy}'\Sigma_{xx}^{-1}\sigma_{xy}}{\sigma_{yy}}. ρ2(y,lx)σyy(lΣxxl)(σxyΣxx1σxy)(lΣxxl)=σyyσxyΣxx1σxy.
  B = Σ x x − 1 , l = Σ x x − 1 σ x y \ B=\Sigma_{xx}^{-1},l=\Sigma_{xx}^{-1}\sigma_{xy}  B=Σxx1l=Σxx1σxy时等式成立。
因此,复相关系数计算公式 ρ y ⋅ x = m a x ρ ( y , l ′ x ) = σ x y ′ Σ x x − 1 σ x y σ y y . \rho_{y\cdot x}=max \rho(y,l'x)=\sqrt{\frac{\sigma_{xy}'\Sigma_{xx}^{-1}\sigma_{xy}}{\sigma_{yy}}}. ρyx=maxρ(y,lx)=σyyσxyΣxx1σxy .
其中, σ x y \sigma_{xy} σxy   x 和 y \ x和y  xy的协方差矩阵, Σ x x \Sigma_{xx} Σxx   x \ x  x组的自协方差矩阵。 σ x y ′ Σ x x − 1 x \sigma_{xy}'\Sigma_{xx}^{-1}x σxyΣxx1x   y \ y  y的最优线性预测 y ~ \widetilde y y 。以上公式也可化为 ρ x y ′ R x x − 1 ρ x y \sqrt{\rho_{xy}'R_{xx}^{-1}\rho_{xy}} ρxyRxx1ρxy 利用相关系数 ρ x y \rho_{xy} ρxy和相关矩阵   R x x \ R_{xx}  Rxx求解。

2.偏相关系数(Partial-correlation coefficient)

指剔除其他变量的线性影响后,变量   x i 与 x j \ x_i 与 x_j  xixj之间的相关系数。要真正度量两个随机变量之间的相关性,必须要剔除由第三方带来的影响。

例如:①男生和女生两家相好。他两之间的亲密度可看做是相关系数。两人要想真正走在一起,必须要剔除双方父母带来的影响,测量两个人之间不受其他干扰时剩下的亲密度。这就是偏相关系数。②一个家庭的饮食支出和衣着支出存在较强的正相关性,也就是说一般吃的费用大的一般穿的费用也大,即相关系数大。但实际上,这种“伪强正相关”是由于收入这个第三方变量引起的。一般而言,高收入带动了各方面的消费支出。如果控制收入不变,则饮食和衣着费用之间的相关性则大不相同,甚至变成负相关性。消除第三方变量的影响后两者的相关性,称作偏相关。

相关系数也称为总相关系数或零阶偏相关系数,包含了一切影响带来的相关性。设有多元随机变量   x \ x  x,对   x \ x  x 及其均值向量 μ \mu μ 、总体自协方差矩阵 Σ \Sigma Σ 做剖分如下:   x = ( x 1 x 2 ) k p − k , μ = ( μ 1 μ 2 ) k p − k , Σ = ( Σ 11 Σ 12 Σ 21 Σ 22 ) k p − k . \ x=\binom{x_1}{x_2}\begin{matrix}k\\p-k\end{matrix},\mu=\binom{\mu_1}{\mu_2}\begin{matrix}k\\p-k\end{matrix},\Sigma=\begin{pmatrix}\Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22}\end{pmatrix}\begin{matrix}k\\p-k\end{matrix}.  x=(x2x1)kpk,μ=(μ2μ1)kpk,Σ=(Σ11Σ21Σ12Σ22)kpk.
以下讨论消除   x 2 \ x_2  x2的线性影响后   x 1 \ x_1  x1分量之间的相关性,先记为 Σ 11 ⋅ 2 \Sigma_{11\cdot2} Σ112

我们讨论的方法是

  • 首先找到   x 2 \ x_2  x2   x 1 \ x_1  x1各分量   x i \ x_i  xi的最优线性预测 x ~ i \widetilde x_i x i,将   x 2 \ x_2  x2中包含的   x i \ x_i  xi的信息尽可能提取出来;
  • 计算预测误差   e i = x i − x ~ i \ e_i=x_i - \widetilde x_i  ei=xix i,表示   x 2 \ x_2  x2无法解释的部分;
  • 度量   e i \ e_i  ei之间的相关性,计算   V ( e ) \ V(e)  V(e)
  • 利用相关系数公式,代入   V ( e ) \ V(e)  V(e)成分计算偏相关。

由最优线性预测公式

y ~ = μ y + σ x y ′ Σ x x − 1 ( x − μ x ) \widetilde y=\mu_y+\sigma_{xy}'\Sigma_{xx}^{-1}(x-\mu_x) y =μy+σxyΣxx1(xμx)

可知 e ~ i = x i − [ μ i + a i ′ Σ 12 Σ 22 − 1 ( x 2 − μ 2 ) ] . \widetilde e_i=x_i-[\mu_i+a_i'\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)]. e i=xi[μi+aiΣ12Σ221(x2μ2)].
其中   a i = ( 0 , … , 0 , 1 , 0 , … , 0 ) ′ : k × 1 \ a_i=(0,\dots,0,1,0,\dots,0)':k×1  ai=(0,,0,1,0,,0):k×1,1出现在第   i \ i  i个位置。导出   e = x 1 − [ μ 1 + ( a 1 , … , a k ) ′ Σ 12 Σ 22 − 1 ( x 2 − μ 2 ) ] \ e=x_1-[\mu_1+(a_1,\dots,a_k)'\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)]  e=x1[μ1+(a1,,ak)Σ12Σ221(x2μ2)]   = x 1 − [ μ 1 + Σ 12 Σ 22 − 1 ( x 2 − μ 2 ) ] . \ =x_1-[\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)].  =x1[μ1+Σ12Σ221(x2μ2)].
计算   x i \ x_i  xi各分量间的相关性,则有   V ( e ) = V ( x 1 − [ μ 1 + Σ 12 Σ 22 − 1 ( x 2 − μ 2 ) ] ) \ V(e)=V(x_1-[\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)])  V(e)=V(x1[μ1+Σ12Σ221(x2μ2)])   = V ( x 1 − Σ 12 Σ 22 − 1 x 2 ) = Σ 11 − Σ 12 Σ 22 − 1 Σ 21 = Σ 11 ⋅ 2 . \ =V(x_1-\Sigma_{12}\Sigma_{22}^{-1}x_2)=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}=\Sigma_{11\cdot2}.  =V(x1Σ12Σ221x2)=Σ11Σ12Σ221Σ21=Σ112.

于是,我们称 Σ 11 ⋅ 2 = ( σ i j , k = 1 , … , p ) \Sigma_{11\cdot2}=(\sigma_{ij,k=1,\dots,p}) Σ112=(σij,k=1,,p)为偏协方差矩阵,非对角元素称为偏协方差,对角元素称为偏方差。根据相关系数的公式推导出   x 2 \ x_2  x2给定时,   x i \ x_i  xi   x j \ x_j  xj   ( p − k ) \ (p-k)  (pk)偏相关系数的计算公式 ρ i j ⋅ k + 1 , … , p = σ i j ⋅ k + 1 , … , p σ i i ⋅ k + 1 , … , p ∗ σ j j ⋅ k + 1 , … , p , 1 ⩽ i , j ⩽ k . \rho_{ij\cdot k+1,\dots,p}=\frac{\sigma_{ij\cdot k+1,\dots,p}}{\sqrt {\sigma_{ii\cdot k+1,\dots,p}*\sigma_{jj\cdot k+1,\dots,p}}},1\leqslant i,j\leqslant k. ρijk+1,,p=σiik+1,,pσjjk+1,,p σijk+1,,p,1i,jk.

你可能感兴趣的:(多元统计)