说明:这里只考虑随机变量总体的参数,而不是从统计学的角度考虑样本的统计量
意义:在概率论和统计中,协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量
越线性相关,协方差越大, 两个变量完全线性无关,协方差为零。
协方差的定义如下:
c o v ( X , Y ) = E [ ( X − E ( X ) ∗ ( Y − E ( Y ) ) ] cov(X,Y)=E[(X-E(X)*(Y-E(Y))] cov(X,Y)=E[(X−E(X)∗(Y−E(Y))](我这里用“ ∗ * ∗”表示python中的元素分别相乘)
当X,Y是同一个随机变量时,X与其自身的协方差就是X的方差,可以说方差是协方差的一个特例。
对于一维随机变量,我们研究的是这两个随机变量之间的关系
设有两个随机变量 X , Y X,Y X,Y,分别有m个样本 x 1 , x 2 , . . . , x m x_1,x_2,...,x_m x1,x2,...,xm 和 y 1 , y 2 , . . . , y m y_1,y_2,...,y_m y1,y2,...,ym
展开来说就是:
c o v ( X , Y ) = ∑ i n ( x i − x ‾ ) ( y i − y ‾ ) m cov(X,Y)=\frac{\sum_i^n(x_i-\overline{x})(y_i-\overline{y})}{m} cov(X,Y)=m∑in(xi−x)(yi−y)
对于多维向量,我们研究的是某两个维度之间的关系(把每一个维度看成一个随机变量)
协方差矩阵的概念一般是定义在多维随机变量上的,
设n维随机变量
X = [ X 1 X 2 ⋮ X n ] X= \begin{bmatrix} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \\ \end{bmatrix} X=⎣⎢⎢⎢⎡X1X2⋮Xn⎦⎥⎥⎥⎤
取样本矩阵
x = [ x 11 x 12 ⋯ x 1 m x 21 x 22 ⋯ x 2 m ⋮ ⋮ ⋱ ⋮ x n 1 x n 2 ⋯ x n m ] x= \begin{bmatrix} x_{11}& x_{12} & \cdots &x_{1m} \\ x_{21}& x_{22} & \cdots &x_{2m} \\ \vdots& \vdots & \ddots &\vdots \\ x_{n1}& x_{n2} & \cdots &x_{nm} \\ \end{bmatrix} x=⎣⎢⎢⎢⎡x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1mx2m⋮xnm⎦⎥⎥⎥⎤
那么其中两个维度的协方差为
c o v ( X i , X j ) = ∑ k = 1 m ( x i k − x i ‾ ) ( x j k − x j ‾ ) m cov(X_i,X_j)=\frac{\sum^m_{k=1}(x_{ik}-\overline{x_{i}})(x_{jk}-\overline{x_{j}})}{m} cov(Xi,Xj)=m∑k=1m(xik−xi)(xjk−xj)
(其中 X i , X j X_i, X_j Xi,Xj分别代表所有样本的第 i 和第 j 维的元素构成向量。)
设 c i j = c o v ( X i , X j ) c_{ij}=cov(X_i,X_j) cij=cov(Xi,Xj),那么有
C = ( c i j ) n × n = [ c 11 c 12 ⋯ c 1 n c 21 c 22 ⋯ c 2 n ⋮ ⋮ ⋱ ⋮ c n 1 c n 2 ⋯ c n n ] C=(c_{ij})_{n \times n}= \begin{bmatrix} c_{11}& c_{12} & \cdots &c_{1n} \\ c_{21}& c_{22} & \cdots &c_{2n} \\ \vdots& \vdots & \ddots &\vdots \\ c_{n1}& c_{n2} & \cdots &c_{nn} \\ \end{bmatrix} C=(cij)n×n=⎣⎢⎢⎢⎡c11c21⋮cn1c12c22⋮cn2⋯⋯⋱⋯c1nc2n⋮cnn⎦⎥⎥⎥⎤
向量化之后的表达式为:
C = ( x − E ( x ) ) ( x − E ( x ) ) T C=(x-E(x))(x-E(x))^T C=(x−E(x))(x−E(x))T
(说明这里的E(x)是对x按列求均值的结果,如果使用python,可以写成
np.mean(x,axis=1)
)
意义:由于随机变量的取值范围不同,两个协方差不具备可比性。如X,Y,Z分别是三个随机变量,
想要比较X与Y的线性相关程度强,还是X与Z的线性相关程度强,通过cov(X,Y)与cov(X,Z)
无法直接比较。定义相关系数:
ρ = c o v ( X , Y ) V a r ( x ) V a r ( y ) \rho = \frac{cov(X,Y)}{\sqrt{Var(x)Var(y)}} ρ=Var(x)Var(y)cov(X,Y)
设n维随机变量
X = [ X 1 X 2 ⋮ X n ] X= \begin{bmatrix} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \\ \end{bmatrix} X=⎣⎢⎢⎢⎡X1X2⋮Xn⎦⎥⎥⎥⎤
取样本矩阵
x = [ x 11 x 12 ⋯ x 1 m x 21 x 22 ⋯ x 2 m ⋮ ⋮ ⋱ ⋮ x n 1 x n 2 ⋯ x n m ] x= \begin{bmatrix} x_{11}& x_{12} & \cdots &x_{1m} \\ x_{21}& x_{22} & \cdots &x_{2m} \\ \vdots& \vdots & \ddots &\vdots \\ x_{n1}& x_{n2} & \cdots &x_{nm} \\ \end{bmatrix} x=⎣⎢⎢⎢⎡x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1mx2m⋮xnm⎦⎥⎥⎥⎤
那么其中两个维度的相关系数为:
ρ ( X i , X j ) = C o v ( X i , X j ) V a r ( X i ) V a r ( X j ) \rho(X_i,X_j)=\frac{Cov(X_i,X_j)}{\sqrt{Var(X_i)Var(X_j)}} ρ(Xi,Xj)=Var(Xi)Var(Xj)Cov(Xi,Xj)
(其中 X i , X j X_i, X_j Xi,Xj分别代表所有样本的第 i 和第 j 维的元素构成向量。)
设 ρ i j = ρ ( X i , X j ) \rho_{ij}=\rho(X_i,X_j) ρij=ρ(Xi,Xj),那么有
ρ = ( ρ i j ) m × m = [ ρ 11 ρ 12 ⋯ ρ 1 n ρ 21 ρ 22 ⋯ ρ 2 n ⋮ ⋮ ⋱ ⋮ ρ n 1 ρ n 2 ⋯ ρ n n ] \rho=(\rho_{ij})_{m \times m}= \begin{bmatrix} \rho_{11}& \rho_{12} & \cdots &\rho_{1n} \\ \rho_{21}& \rho_{22} & \cdots &\rho_{2n} \\ \vdots& \vdots & \ddots &\vdots \\ \rho_{n1}& \rho_{n2} & \cdots &\rho_{nn} \\ \end{bmatrix} ρ=(ρij)m×m=⎣⎢⎢⎢⎡ρ11ρ21⋮ρn1ρ12ρ22⋮ρn2⋯⋯⋱⋯ρ1nρ2n⋮ρnn⎦⎥⎥⎥⎤