设 ( X , Y ) (X,Y) (X,Y)是二维随机变量,若: E [ X − E ( X ) ] [ Y − E ( Y ) ] E[X-E(X)][Y-E(Y)] E[X−E(X)][Y−E(Y)]存在,则称它为随机变量 X X X与 Y Y Y的协方差,记为 c o v ( X , Y ) cov(X,Y) cov(X,Y),有 c o v ( X , Y ) = E [ X − E ( X ) ] [ Y − E ( Y ) ] = E ( X Y ) − E ( X ) E ( Y ) = ∫ − ∞ + ∞ x y f ( x , y ) d x d y − ∫ − ∞ + ∞ x f ( x , y ) d x ∫ − ∞ + ∞ y f ( x , y ) d y \begin{aligned} cov(X,Y) & = E[X-E(X)][Y-E(Y)] \\ & = E(XY)-E(X)E(Y) \\ & = \int_{-\infty}^{+\infty}xyf(x,y)dxdy-\int_{-\infty}^{+\infty}xf(x,y)dx\int_{-\infty}^{+\infty}yf(x,y)dy \\ \end{aligned} cov(X,Y)=E[X−E(X)][Y−E(Y)]=E(XY)−E(X)E(Y)=∫−∞+∞xyf(x,y)dxdy−∫−∞+∞xf(x,y)dx∫−∞+∞yf(x,y)dy
设 c o v ( X , Y ) cov(X,Y) cov(X,Y)存在,且 D ( X ) , D ( Y ) D(X),D(Y) D(X),D(Y)不为零,则称 c o v ( X , Y ) D ( X ) D ( Y ) \frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} D(X)D(Y)cov(X,Y)为随机变量 X X X与 Y Y Y的相关系数或标准协方差,记为 ρ X Y \rho_{XY} ρXY,即 ρ X Y = c o v ( X , Y ) D ( X ) D ( Y ) \rho_{XY}=\frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} ρXY=D(X)D(Y)cov(X,Y)
由 c o v ( X , Y ) = E [ X − E ( X ) ] [ Y − E ( Y ) ] cov(X,Y) = E[X-E(X)][Y-E(Y)] cov(X,Y)=E[X−E(X)][Y−E(Y)]可得,设 X ∗ = X − E ( X ) D ( X ) , Y ∗ = Y − E ( Y ) D ( Y ) X^*=\frac{X-E(X)}{\sqrt{D(X)}},Y^*=\frac{Y-E(Y)}{\sqrt{D(Y)}} X∗=D(X)X−E(X),Y∗=D(Y)Y−E(Y)即 X ∗ , Y ∗ X^*,Y^* X∗,Y∗分别是 X , Y X,Y X,Y的标准化随机变量,由协方差的定义,可知 ρ X Y = c o v ( X ∗ , Y ∗ ) \rho_{XY}=cov(X^*,Y^*) ρXY=cov(X∗,Y∗)
已知 ρ X Y \rho_{XY} ρXY是 X , Y X,Y X,Y的相关系数,则有定理:
该定理说明了,相关系数 ρ X Y \rho_{XY} ρXY描述了随机变量 X X X、 Y Y Y的线性相关程度, ∣ ρ X Y ∣ |\rho_{XY}| ∣ρXY∣越接近1,则 X X X与 Y Y Y之间越接近线性关系。当 ∣ ρ ∣ = 1 |\rho|=1 ∣ρ∣=1时, X X X与 Y Y Y存在线性关系。特别地,如果 ρ X Y = 0 \rho_{XY}=0 ρXY=0,则 X X X与 Y Y Y不相关,说明 X X X与 Y Y Y没有线性关系。
应当注意到,两个随机变量 X X X与 Y Y Y之间的不相关性和相互独立型一般是不同的。
由相关系数的定义可以推导得,当 X X X与 Y Y Y相互独立时,必有 ρ X Y = 0 \rho_{XY}=0 ρXY=0,即 X X X与 Y Y Y不相关,但反之则不然。
独立性是比不相关性更为严格的条件,独立性反映 X X X与 Y Y Y之间不存在任何关系,而不相关性只是就线性关系而已的,即使 X X X与 Y Y Y不相关,它们之间也可能存在某种函数关系。