本文就对多元统计中的复相关系数和偏相关系数进行阐述和说明。
指度量 y \ y y 与其最优线性预测 y ~ \widetilde y y 之间的相关系数。 也即有一个随机变量 y \ y y 和一组随机变量 x = ( x 1 , x 2 , … , x p ) ′ \ x=(x_1,x_2,\dots,x_p)' x=(x1,x2,…,xp)′ , 现在寻找 y \ y y 和该组 x \ x x 变量之间的整体相关性。
在一般情况下, y \ y y和 x \ x x组成员 x i \ x_i xi 都具有一定的相关性。比如在人体素质测试中,若有 肺活量 为 y \ y y,以及年龄( x 1 \ x_1 x1)、体重( x 2 \ x_2 x2)、800米跑步时间( x 3 \ x_3 x3)、休息时的脉搏( x 4 \ x_4 x4)和跑步时的脉搏( x 5 \ x_5 x5)六个测试项目。肺活量与其余5个变量中的每一个都具有相关性。而我们想要研究肺活量与其余五个变量之间的整体相关性。
为做到这点,首先找到一个线性组合 l ′ x \ l'x l′x 将 x \ x x 中包含的关于 y \ y y 的信息最大限度地提取出来,然后计算 y \ y y 与 线性组合 l ′ x \ l'x l′x 之间的相关性,此即为复相关系数,表示为 ρ y ⋅ x \rho_{y·x} ρy⋅x / ρ y ⋅ 1 , 2 , 3 , … , p \rho_{y·1,2,3,\dots,p} ρy⋅1,2,3,…,p / ρ ( y , l ′ x ) \rho(y,l'x) ρ(y,l′x)。
根据相关系数定义,我们有 ρ 2 ( y , l ′ x ) = C o v ( y , l ′ x ) V ( y ) ∗ V ( l ′ x ) = ( σ y x l ′ ) 2 σ y y ∗ l ′ Σ x x l . \rho^{2}(y,l'x)=\frac{Cov(y,l'x)}{V(y)*V(l'x)}=\frac {(\sigma_{yx}l')^2}{\sigma_{yy}*l'\Sigma_{xx}l}. ρ2(y,l′x)=V(y)∗V(l′x)Cov(y,l′x)=σyy∗l′Σxxl(σyxl′)2.
通过柯西—施瓦茨不等式
设有一 B > 0 \ B>0 B>0,则有 ( x ′ y ) 2 ⩽ ( x ′ B x ) ( y ′ B − 1 y ) . \ (x'y)^2\leqslant (x'Bx)(y'B^{-1}y). (x′y)2⩽(x′Bx)(y′B−1y).等号成立当且仅当 x = c B − 1 y \ x=cB^{-1}y x=cB−1y或 y = c B x \ y=cBx y=cBx, c \ c c为常数。
设 B = Σ x x − 1 \ B=\Sigma_{xx}^{-1} B=Σxx−1,得到复相关系数的平方为 ρ 2 ( y , l ′ x ) ⩽ ( σ x y ′ Σ x x − 1 σ x y ) ( l ′ Σ x x l ) σ y y ∗ ( l ′ Σ x x l ) = σ x y ′ Σ x x − 1 σ x y σ y y . \rho^{2}(y,l'x)\leqslant\frac{(\sigma_{xy}'\Sigma_{xx}^{-1}\sigma_{xy})(l'\Sigma_{xx}l)}{\sigma_{yy}*(l'\Sigma_{xx}l)}=\frac{\sigma_{xy}'\Sigma_{xx}^{-1}\sigma_{xy}}{\sigma_{yy}}. ρ2(y,l′x)⩽σyy∗(l′Σxxl)(σxy′Σxx−1σxy)(l′Σxxl)=σyyσxy′Σxx−1σxy.
当 B = Σ x x − 1 , l = Σ x x − 1 σ x y \ B=\Sigma_{xx}^{-1},l=\Sigma_{xx}^{-1}\sigma_{xy} B=Σxx−1,l=Σxx−1σxy时等式成立。
因此,复相关系数计算公式为 ρ y ⋅ x = m a x ρ ( y , l ′ x ) = σ x y ′ Σ x x − 1 σ x y σ y y . \rho_{y\cdot x}=max \rho(y,l'x)=\sqrt{\frac{\sigma_{xy}'\Sigma_{xx}^{-1}\sigma_{xy}}{\sigma_{yy}}}. ρy⋅x=maxρ(y,l′x)=σyyσxy′Σxx−1σxy.
其中, σ x y \sigma_{xy} σxy为 x 和 y \ x和y x和y的协方差矩阵, Σ x x \Sigma_{xx} Σxx为 x \ x x组的自协方差矩阵。 σ x y ′ Σ x x − 1 x \sigma_{xy}'\Sigma_{xx}^{-1}x σxy′Σxx−1x为 y \ y y的最优线性预测 y ~ \widetilde y y 。以上公式也可化为 ρ x y ′ R x x − 1 ρ x y \sqrt{\rho_{xy}'R_{xx}^{-1}\rho_{xy}} ρxy′Rxx−1ρxy利用相关系数 ρ x y \rho_{xy} ρxy和相关矩阵 R x x \ R_{xx} Rxx求解。
指剔除其他变量的线性影响后,变量 x i 与 x j \ x_i 与 x_j xi与xj之间的相关系数。要真正度量两个随机变量之间的相关性,必须要剔除由第三方带来的影响。
例如:①男生和女生两家相好。他两之间的亲密度可看做是相关系数。两人要想真正走在一起,必须要剔除双方父母带来的影响,测量两个人之间不受其他干扰时剩下的亲密度。这就是偏相关系数。②一个家庭的饮食支出和衣着支出存在较强的正相关性,也就是说一般吃的费用大的一般穿的费用也大,即相关系数大。但实际上,这种“伪强正相关”是由于收入这个第三方变量引起的。一般而言,高收入带动了各方面的消费支出。如果控制收入不变,则饮食和衣着费用之间的相关性则大不相同,甚至变成负相关性。消除第三方变量的影响后两者的相关性,称作偏相关。
相关系数也称为总相关系数或零阶偏相关系数,包含了一切影响带来的相关性。设有多元随机变量 x \ x x,对 x \ x x 及其均值向量 μ \mu μ 、总体自协方差矩阵 Σ \Sigma Σ 做剖分如下: x = ( x 1 x 2 ) k p − k , μ = ( μ 1 μ 2 ) k p − k , Σ = ( Σ 11 Σ 12 Σ 21 Σ 22 ) k p − k . \ x=\binom{x_1}{x_2}\begin{matrix}k\\p-k\end{matrix},\mu=\binom{\mu_1}{\mu_2}\begin{matrix}k\\p-k\end{matrix},\Sigma=\begin{pmatrix}\Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22}\end{pmatrix}\begin{matrix}k\\p-k\end{matrix}. x=(x2x1)kp−k,μ=(μ2μ1)kp−k,Σ=(Σ11Σ21Σ12Σ22)kp−k.
以下讨论消除 x 2 \ x_2 x2的线性影响后 x 1 \ x_1 x1分量之间的相关性,先记为 Σ 11 ⋅ 2 \Sigma_{11\cdot2} Σ11⋅2。
我们讨论的方法是
由最优线性预测公式
y ~ = μ y + σ x y ′ Σ x x − 1 ( x − μ x ) \widetilde y=\mu_y+\sigma_{xy}'\Sigma_{xx}^{-1}(x-\mu_x) y =μy+σxy′Σxx−1(x−μx)
可知 e ~ i = x i − [ μ i + a i ′ Σ 12 Σ 22 − 1 ( x 2 − μ 2 ) ] . \widetilde e_i=x_i-[\mu_i+a_i'\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)]. e i=xi−[μi+ai′Σ12Σ22−1(x2−μ2)].
其中 a i = ( 0 , … , 0 , 1 , 0 , … , 0 ) ′ : k × 1 \ a_i=(0,\dots,0,1,0,\dots,0)':k×1 ai=(0,…,0,1,0,…,0)′:k×1,1出现在第 i \ i i个位置。导出 e = x 1 − [ μ 1 + ( a 1 , … , a k ) ′ Σ 12 Σ 22 − 1 ( x 2 − μ 2 ) ] \ e=x_1-[\mu_1+(a_1,\dots,a_k)'\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)] e=x1−[μ1+(a1,…,ak)′Σ12Σ22−1(x2−μ2)] = x 1 − [ μ 1 + Σ 12 Σ 22 − 1 ( x 2 − μ 2 ) ] . \ =x_1-[\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)]. =x1−[μ1+Σ12Σ22−1(x2−μ2)].
计算 x i \ x_i xi各分量间的相关性,则有 V ( e ) = V ( x 1 − [ μ 1 + Σ 12 Σ 22 − 1 ( x 2 − μ 2 ) ] ) \ V(e)=V(x_1-[\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2)]) V(e)=V(x1−[μ1+Σ12Σ22−1(x2−μ2)]) = V ( x 1 − Σ 12 Σ 22 − 1 x 2 ) = Σ 11 − Σ 12 Σ 22 − 1 Σ 21 = Σ 11 ⋅ 2 . \ =V(x_1-\Sigma_{12}\Sigma_{22}^{-1}x_2)=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}=\Sigma_{11\cdot2}. =V(x1−Σ12Σ22−1x2)=Σ11−Σ12Σ22−1Σ21=Σ11⋅2.
于是,我们称 Σ 11 ⋅ 2 = ( σ i j , k = 1 , … , p ) \Sigma_{11\cdot2}=(\sigma_{ij,k=1,\dots,p}) Σ11⋅2=(σij,k=1,…,p)为偏协方差矩阵,非对角元素称为偏协方差,对角元素称为偏方差。根据相关系数的公式推导出 x 2 \ x_2 x2给定时, x i \ x_i xi和 x j \ x_j xj的 ( p − k ) \ (p-k) (p−k)阶偏相关系数的计算公式为 ρ i j ⋅ k + 1 , … , p = σ i j ⋅ k + 1 , … , p σ i i ⋅ k + 1 , … , p ∗ σ j j ⋅ k + 1 , … , p , 1 ⩽ i , j ⩽ k . \rho_{ij\cdot k+1,\dots,p}=\frac{\sigma_{ij\cdot k+1,\dots,p}}{\sqrt {\sigma_{ii\cdot k+1,\dots,p}*\sigma_{jj\cdot k+1,\dots,p}}},1\leqslant i,j\leqslant k. ρij⋅k+1,…,p=σii⋅k+1,…,p∗σjj⋅k+1,…,pσij⋅k+1,…,p,1⩽i,j⩽k.