协方差与相关系数(标准协方差)

协方差的定义

( X , Y ) (X,Y) (X,Y)是二维随机变量,若: E [ X − E ( X ) ] [ Y − E ( Y ) ] E[X-E(X)][Y-E(Y)] E[XE(X)][YE(Y)]存在,则称它为随机变量 X X X Y Y Y的协方差,记为 c o v ( X , Y ) cov(X,Y) cov(X,Y),有 c o v ( X , Y ) = E [ X − E ( X ) ] [ Y − E ( Y ) ] = E ( X Y ) − E ( X ) E ( Y ) = ∫ − ∞ + ∞ x y f ( x , y ) d x d y − ∫ − ∞ + ∞ x f ( x , y ) d x ∫ − ∞ + ∞ y f ( x , y ) d y \begin{aligned} cov(X,Y) & = E[X-E(X)][Y-E(Y)] \\ & = E(XY)-E(X)E(Y) \\ & = \int_{-\infty}^{+\infty}xyf(x,y)dxdy-\int_{-\infty}^{+\infty}xf(x,y)dx\int_{-\infty}^{+\infty}yf(x,y)dy \\ \end{aligned} cov(X,Y)=E[XE(X)][YE(Y)]=E(XY)E(X)E(Y)=+xyf(x,y)dxdy+xf(x,y)dx+yf(x,y)dy

协方差的性质

  1. c o v ( X , Y ) = c o v ( Y , X ) cov(X,Y)=cov(Y,X) cov(X,Y)=cov(Y,X)
  2. c o v ( X , X ) = D ( X ) cov(X,X)=D(X) cov(X,X)=D(X)
  3. c o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) cov(X,Y)=E(XY)-E(X)E(Y) cov(X,Y)=E(XY)E(X)E(Y)
  4. D ( X ± Y ) = D ( X ) + D ( Y ) ± 2 c o v ( X , Y ) D(X \pm Y)=D(X)+D(Y) \pm 2cov(X,Y) D(X±Y)=D(X)+D(Y)±2cov(X,Y)
  5. c o v ( a X , b Y ) = a b c o v ( X , Y ) cov(aX,bY)=abcov(X,Y) cov(aX,bY)=abcov(X,Y) a a a b b b是常数
  6. c o v ( X 1 + X 2 , Y ) = c o v ( X 1 , Y ) + c o v ( X 2 , Y ) cov(X_1+X_2,Y)=cov(X_1,Y)+cov(X_2,Y) cov(X1+X2,Y)=cov(X1,Y)+cov(X2,Y)
  7. X X X Y Y Y相互独立,则 c o v ( X , Y ) = 0 cov(X,Y)=0 cov(X,Y)=0
  8. c o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) = 0 cov(X,Y)=E(XY)-E(X)E(Y)=0 cov(X,Y)=E(XY)E(X)E(Y)=0 D ( X ± Y ) = D ( X ) + D ( Y ) ± 2 c o v ( X , Y ) = 0 D(X \pm Y)=D(X)+D(Y) \pm 2cov(X,Y)=0 D(X±Y)=D(X)+D(Y)±2cov(X,Y)=0 X X X Y Y Y不相关

协方差的定义

c o v ( X , Y ) cov(X,Y) cov(X,Y)存在,且 D ( X ) , D ( Y ) D(X),D(Y) D(X),D(Y)不为零,则称 c o v ( X , Y ) D ( X ) D ( Y ) \frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} D(X) D(Y) cov(X,Y)为随机变量 X X X Y Y Y的相关系数或标准协方差,记为 ρ X Y \rho_{XY} ρXY,即 ρ X Y = c o v ( X , Y ) D ( X ) D ( Y ) \rho_{XY}=\frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} ρXY=D(X) D(Y) cov(X,Y)
c o v ( X , Y ) = E [ X − E ( X ) ] [ Y − E ( Y ) ] cov(X,Y) = E[X-E(X)][Y-E(Y)] cov(X,Y)=E[XE(X)][YE(Y)]可得,设 X ∗ = X − E ( X ) D ( X ) , Y ∗ = Y − E ( Y ) D ( Y ) X^*=\frac{X-E(X)}{\sqrt{D(X)}},Y^*=\frac{Y-E(Y)}{\sqrt{D(Y)}} X=D(X) XE(X)Y=D(Y) YE(Y) X ∗ , Y ∗ X^*,Y^* X,Y分别是 X , Y X,Y X,Y的标准化随机变量,由协方差的定义,可知 ρ X Y = c o v ( X ∗ , Y ∗ ) \rho_{XY}=cov(X^*,Y^*) ρXY=cov(X,Y)

相关系数的意义

已知 ρ X Y \rho_{XY} ρXY X , Y X,Y X,Y的相关系数,则有定理:

  1. ∣ ρ X Y ∣ ⩽ 1 |\rho_{XY}| \leqslant 1 ρXY1;( ρ X Y > 0 \rho_{XY} >0 ρXY>0称正相关, ρ X Y < 0 \rho_{XY} < 0 ρXY<0称负相关)
  2. ∣ ρ X Y ∣ = 1 |\rho_{XY}| = 1 ρXY=1的充要条件是:存在常数 a , b a,b a,b,使: P { Y = a X + b } = 1 P\{Y=aX+b\}=1 P{Y=aX+b}=1 X X X Y Y Y以概率1存在线性关系

该定理说明了,相关系数 ρ X Y \rho_{XY} ρXY描述了随机变量 X X X Y Y Y的线性相关程度, ∣ ρ X Y ∣ |\rho_{XY}| ρXY越接近1,则 X X X Y Y Y之间越接近线性关系。当 ∣ ρ ∣ = 1 |\rho|=1 ρ=1时, X X X Y Y Y存在线性关系。特别地,如果 ρ X Y = 0 \rho_{XY}=0 ρXY=0,则 X X X Y Y Y不相关,说明 X X X Y Y Y没有线性关系。

应当注意到,两个随机变量 X X X Y Y Y之间的不相关性相互独立型一般是不同的。
由相关系数的定义可以推导得,当 X X X Y Y Y相互独立时,必有 ρ X Y = 0 \rho_{XY}=0 ρXY=0,即 X X X Y Y Y不相关,但反之则不然。
独立性是比不相关性更为严格的条件,独立性反映 X X X Y Y Y之间不存在任何关系,而不相关性只是就线性关系而已的,即使 X X X Y Y Y不相关,它们之间也可能存在某种函数关系。

你可能感兴趣的:(#,概率统计)