概率论之 多维随机变量的期望,协方差矩阵

概率论之 多维随机变量的期望,协方差矩阵

  • 前言
  • 多维系统状态
  • 多维随机变量的期望
  • 多维随机变量的协方差矩阵
    • 矩阵表示
    • 公式表示
  • 后记

前言

上一次写了一维随机变量的期望,方差,协方差。本次来记录多维随机变量的期望和协方差矩阵。这一块内容由浅入深,因此会有更新。

多维系统状态

假设系统状态有多个分量 x 1 , x 2 , … , x n x_1,x_2,\dots,x_n x1,x2,,xn,则将其表示为向量的形式 X = ( x 1 , x 2 , … , x n ) T X=(x_1,x_2,\dots,x_n)^T X=(x1,x2,,xn)T

多维随机变量的期望

多维随机变量的期望可表示为各分量的期望组成的向量:
E ( X ) = ( E ( x 1 ) , E ( x 2 ) , … , E ( x 3 ) ) T = ( μ 1 , μ 2 , … , μ n ) T E(X)=(E(x_1),E(x_2),\dots,E(x_3))^T \\ = (\mu_1,\mu_2,\dots,\mu_n)^T E(X)=(E(x1),E(x2),,E(x3))T=(μ1,μ2,,μn)T

性质
与一维随机变量具有类似的性质性:
E ( X + a ) = E ( X ) + a , a ∈ R E ( b X ) = b E ( X ) , b ∈ R E ( X + Y ) = E ( X ) + E ( Y ) ( E ( X ) ) T = E ( X T ) E(X+a) =E(X) +a, a\in R \\ E(bX) = bE(X), b \in R \\ E(X+Y)=E(X)+E(Y) \\ (E(X))^T = E(X^T) E(X+a)=E(X)+a,aRE(bX)=bE(X),bRE(X+Y)=E(X)+E(Y)(E(X))T=E(XT)


如果 A = ( a 1 , a 2 , … , a n ) T ∈ R n A =(a_1,a_2,\dots,a_n)^T \in R^{n} A=(a1,a2,,an)TRn,则有:
E ( A T X ) = A T E ( X ) E ( X T A ) = E ( X T ) A E ( A T X X T A ) = A T E ( X X T ) A E(A^TX)=A^TE(X) \\ E(X^TA)=E(X^T)A \\ E(A^TXX^TA)=A^TE(XX^T)A E(ATX)=ATE(X)E(XTA)=E(XT)AE(ATXXTA)=ATE(XXT)A
证明:
E ( A T X ) = E ( a 1 x 1 + a 2 x 2 + ⋯ + a n x n ) T = a 1 μ 1 + a 2 μ 2 + ⋯ + a n μ n = A T ( μ 1 , μ 2 , … , μ n ) T = A T E ( X ) E ( X T A ) = E ( ( A T X ) T ) = ( E ( A T X ) ) T = E ( X T ) A \begin{aligned} E(A^TX)&=E(a_1x_1+a_2x_2+\dots+a_nx_n)^T \\ &= a_1\mu_1+a_2\mu_2+\dots+a_n\mu_n \\ &= A^T(\mu_1,\mu_2,\dots,\mu_n)^T=A^TE(X) \\ E(X^TA) &= E((A^TX)^T) \\ &=(E(A^TX))^T=E(X^T)A \end{aligned} E(ATX)E(XTA)=E(a1x1+a2x2++anxn)T=a1μ1+a2μ2++anμn=AT(μ1,μ2,,μn)T=ATE(X)=E((ATX)T)=(E(ATX))T=E(XT)A

实际上就是多维随机变量期望的线性性质。

多维随机变量的协方差矩阵

矩阵表示

两个一维随机变量的协方差表示为:
C o v ( x , y ) = E [ ( x − E ( x ) ) ( y − E ( y ) ) ] Cov(x,y)=E[(x-E(x))(y-E(y))] Cov(x,y)=E[(xE(x))(yE(y))]

多维随机变量的协方差矩阵,其实就是各分量两两之间的协方差的组成:
P X X = [ C o v 11 C o v 12 … C o v 1 n C o v 21 C o v 22 … C o v 2 n … … … … C o v n 1 C o v n 2 … C o v n n ] C o v n n = C o v ( x n , x n ) \begin{aligned} & P_{XX} = \begin{bmatrix} Cov_{11} & Cov_{12} &\dots & Cov_{1n} \\ Cov_{21} & Cov_{22} &\dots & Cov_{2n} \\ \dots & \dots&\dots & \dots \\ Cov_{n1} & Cov_{n2} &\dots & Cov_{nn} \\ \end{bmatrix} \\ \quad \\ & Cov_{nn}=Cov(x_n,x_n) \end{aligned} PXX=Cov11Cov21Covn1Cov12Cov22Covn2Cov1nCov2nCovnnCovnn=Cov(xn,xn)

从以上协方差矩阵表示可以看出, P X X P_{XX} PXX的对角线元素实际上是各分量的方差,其它元素是各分量之间的协方差,并且协方差矩阵是对称矩阵。

公式表示

协方差矩阵还可以从代数形式上表示:
P X X = E [ ( X − E ( X ) ) ( X − E ( X ) ) T ] , X ∈ R n P_{XX}=E[(X-E(X))(X-E(X))^T],X\in R^n PXX=E[(XE(X))(XE(X))T],XRn
实际上就是将一维随机变量的协方差公式换成了多维变量。

由公式可知协方差矩阵 P X X P_{XX} PXX是对称矩阵,并且是半正定矩阵

A ∈ R n × n A\in R^{n\times n} ARn×n为实对称矩阵,若对于每个非零实向量 X X X,都有 X T A X ≥ 0 X^TAX≥0 XTAX0,则称 A A A为半正定矩阵,称 X T A X X^TAX XTAX为半正定二次型。

证明:
对 称 性 : P X X T = ( E [ ( X − E ( X ) ) ( X − E ( X ) ) T ] ) T = E [ ( ( X − E ( X ) ) ( X − E ( X ) ) T ) T ] = E [ ( X − E ( X ) ) ( X − E ( X ) ) T ] 半 正 定 : Y T P X X Y = Y T E [ ( X − E ( X ) ) ( X − E ( X ) ) T ] Y = E [ Y T ( X − E ( X ) ) ( X − E ( X ) ) T Y ] = E [ Y T ( X − E ( X ) ) ( Y T ( X − E ( X ) ) ) T ] = E ( ∥ Y T ( X − E ( X ) ) ∥ 2 ) ≥ 0 \begin{aligned} 对称性:\\ P_{XX}^T&=(E[(X-E(X))(X-E(X))^T])^T \\ &= E[((X-E(X))(X-E(X))^T)^T] \\ &= E[(X-E(X))(X-E(X))^T] \\ 半正定:\\ Y^TP_{XX}Y &= Y^TE[(X-E(X))(X-E(X))^T]Y \\ &= E[Y^T(X-E(X))(X-E(X))^TY] \\ &= E[Y^T(X-E(X))(Y^T(X-E(X)))^T] \\ &= E( \Vert Y^T(X-E(X)) \Vert^2) \ge0 \end{aligned} PXXTYTPXXY=(E[(XE(X))(XE(X))T])T=E[((XE(X))(XE(X))T)T]=E[(XE(X))(XE(X))T]=YTE[(XE(X))(XE(X))T]Y=E[YT(XE(X))(XE(X))TY]=E[YT(XE(X))(YT(XE(X)))T]=E(YT(XE(X))2)0


性质:
C o v ( A X , A X ) = A C o v ( X , X ) A T , A ∈ R n × n C o v ( X + B , X + B ) , B ∈ R n × n 如 果 X , Y 都 是 n 维 随 机 变 量 , 则 有 C o v ( X + Y , X + Y ) = C o v ( X , X ) + C o v ( Y , Y ) + C o v ( X , Y ) + C o v ( Y , X ) Cov(AX,AX)=ACov(X,X)A^T,A \in R^{n\times n}\\ Cov(X+B,X+B),B \in R^{n\times n} \\ \quad \\ 如果X,Y都是n维随机变量,则有\\ Cov(X+Y,X+Y)=Cov(X,X)+Cov(Y,Y) +Cov(X,Y)+Cov(Y,X) \\ Cov(AX,AX)=ACov(X,X)AT,ARn×nCov(X+B,X+B),BRn×nX,YnCov(X+Y,X+Y)=Cov(X,X)+Cov(Y,Y)+Cov(X,Y)+Cov(Y,X)
证明第三条性质:
C o v ( A X , A X ) = E ( A X − E ( A X ) ) ( ( A X − E ( A X ) ) T ) = E ( A X − A E ( X ) ) ( X T A T − E ( X T A T ) ) = A E ( X − E ( X ) ) ( X T − E ( X T ) ) A T = A E ( X − E ( X ) ) ( X − E ( X ) ) T A T = A C o v ( X , X ) A T Cov(AX,AX)=E(AX-E(AX))((AX-E(AX))^T) \\ = E(AX-AE(X))(X^TA^T-E(X^TA^T)) \\ = AE(X-E(X))(X^T-E(X^T))A^T \\ =AE(X-E(X))(X-E(X))^TA^T \\ =ACov(X,X)A^T Cov(AX,AX)=E(AXE(AX))((AXE(AX))T)=E(AXAE(X))(XTATE(XTAT))=AE(XE(X))(XTE(XT))AT=AE(XE(X))(XE(X))TAT=ACov(X,X)AT

后记

本次记录了多为随机变量的期望和协方差矩阵,下一次会先记录正定矩阵,半正定矩阵和格拉姆矩阵的性质,以及范数,再回到协方差矩阵的意义上来。

你可能感兴趣的:(概率论与机器学习,概率论,矩阵,线性代数)