下一篇文章打算好好讨论一下卡尔曼滤波器,在此之前,先需要对相关的前置的知识进行一个复习,主要是概率统计的知识。
在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。
对于离散型的随机变量,数学期望是其各个离散结果的加权平均数,即
E ( X ) = ∑ 1 ∞ x k p k E(X) = \sum ^\infty_1 x_k p_k E(X)=1∑∞xkpk
对于连续型的随机变量,数学期望是其密度函数f(x)的反常积分,即
E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X) = \int ^{+\infty}_{-\infty} xf(x) {\rm d}x E(X)=∫−∞+∞xf(x)dx
数学期望具有以下性质:
① C C C是常数, E ( C ) = C E(C)=C E(C)=C
② E ( a X ) = a E ( X ) E(aX)=aE(X) E(aX)=aE(X)
③ E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)
④ 若 X X X和 Y Y Y相互独立,则 E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)
方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。即方差是表明随机变量X在期望E(X)附近的集中程度的数字特征。
方差是 E [ X − E ( X ) ] 2 E[X-E(X)]^2 E[X−E(X)]2,化简可得:
D ( X ) = E [ X − E ( X ) ] 2 = E ( X 2 ) − ( E ( X ) ) 2 D(X)= E[X-E(X)]^2=E(X^2)-(E(X))^2 D(X)=E[X−E(X)]2=E(X2)−(E(X))2
且对于离散型的随机变量,其方差为:
D ( X ) = ∑ 1 ∞ [ x k − E ( X ) ] 2 p k D(X) = \sum ^\infty_1 [x_k - E(X)]^2 p_k D(X)=1∑∞[xk−E(X)]2pk
对于连续型的随机变量,其方差为:
D ( X ) = ∫ − ∞ + ∞ [ x k − E ( X ) ] 2 f ( x ) d x D(X) = \int ^{+\infty}_{-\infty} [x_k - E(X)]^2 f(x) {\rm d}x D(X)=∫−∞+∞[xk−E(X)]2f(x)dx
方差具有以下性质:
① C C C为常数, D ( C ) = 0 D(C)=0 D(C)=0
② D ( a X + b ) = a 2 D ( X ) D(aX+b)=a^2D(X) D(aX+b)=a2D(X)
③ 若 X X X和 Y Y Y独立,则 D ( X ± Y ) = D ( X ) + D ( Y ) D(X\pm Y)=D(X)+D(Y) D(X±Y)=D(X)+D(Y)
对于两个随机变量,我们想要探讨这两个随机变量中间是否存在关联,以及其关联性程度的高低,而协方差就是一种描述两个随机变量之间的关系的数学特征。
协方差的表达式为
C o v ( X , Y ) = E [ [ X − E ( X ) ] [ Y − E ( Y ) ] ] = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E[[X-E(X)][Y-E(Y)]]=E(XY)-E(X)E(Y) Cov(X,Y)=E[[X−E(X)][Y−E(Y)]]=E(XY)−E(X)E(Y)
并且,方差可以看做是两个相同的随机变量的协方差,即
C o v ( X , X ) = D ( X ) Cov(X,X)=D(X) Cov(X,X)=D(X)
协方差具有以下性质
① C o v ( X , Y ) = C o v ( Y , X ) Cov(X,Y)=Cov(Y,X) Cov(X,Y)=Cov(Y,X)
② C o v ( X , a ) = 0 Cov(X,a)=0 Cov(X,a)=0
③ C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX,bY)=abCov(X,Y) Cov(aX,bY)=abCov(X,Y)
④ C o v ( X + Y , Z ) = C o v ( X , Z ) + C o v ( Y , Z ) Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z) Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)
⑤ C o v ( ∑ i = 1 n a i X i , ∑ j = 1 m b j X j ) = ∑ i = 1 n ∑ j = 1 m C o v ( X i , Y i ) Cov( \sum ^n_{i=1} a_iX_i ,\sum ^m_{j=1} b_jX_j)= \sum ^n_{i=1} \sum ^m_{j=1} Cov(X_i,Y_i) Cov(∑i=1naiXi,∑j=1mbjXj)=∑i=1n∑j=1mCov(Xi,Yi)
⑥ D ( X ± Y ) = D ( X ) + D ( Y ) ± 2 D ( X ) D ( Y ) D(X \pm Y) = D(X)+D(Y) \pm 2D(X)D(Y) D(X±Y)=D(X)+D(Y)±2D(X)D(Y)
⑦ 若 X X X和 Y Y Y相互独立,则 C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0
对于二维变量,我们用一个矩阵来表示两者之间的协方差,即
V = [ D ( X ) C o v ( X , Y ) C o v ( Y , X ) D ( Y ) ] V= \left[ \begin{matrix} D(X) & Cov(X,Y) \\ Cov(Y,X) & D(Y) \end{matrix} \right] V=[D(X)Cov(Y,X)Cov(X,Y)D(Y)]
引申来说,假如有一系列的随机变量 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn),我们需要探究这些变量两两之间的协方差,因此n个随机变量就能得到一个n*n的矩阵,记
σ i j = C o v ( X i , X j ) \sigma_{ij}=Cov(X_i,X_j) σij=Cov(Xi,Xj)
则有n阶矩阵
V = [ σ 11 σ 12 ⋯ σ 1 n σ 21 σ 22 ⋯ σ 2 n ⋮ ⋮ ⋮ σ n 1 σ n 2 ⋯ σ n n ] V= \left[ \begin{matrix} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1n}\\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2n}\\ \vdots & \vdots& & \vdots \\ \sigma_{n1} & \sigma_{n2} & \cdots & \sigma_{nn}\\ \end{matrix} \right] V=⎣⎢⎢⎢⎡σ11σ21⋮σn1σ12σ22⋮σn2⋯⋯⋯σ1nσ2n⋮σnn⎦⎥⎥⎥⎤
该矩阵就是随机变量 ( X 1 , X 2 , ⋯   , X n ) (X_1,X_2,\cdots,X_n) (X1,X2,⋯,Xn)的协方差矩阵。
很容易可以得到,协方差矩阵是一个对称矩阵,且对角元元素为各个随机变量的方差。
若随机变量 X X X的概率密度函数为:
φ ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 \varphi(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} φ(x)=2πσ1e−2σ2(x−μ)2
则称 X X X服从参数为 μ , σ 2 \mu,\sigma^2 μ,σ2的正态分布,写作 X − N ( μ , σ 2 ) X-N(\mu,\sigma^2) X−N(μ,σ2)
根据正态分布的特征参数 μ , σ 2 \mu,\sigma^2 μ,σ2,我们能对该正态分布有个直观的印象, μ \mu μ表示正态分布的对称轴,所以叫做位置参数。 σ 2 \sigma^2 σ2表示正态分布的分散程度, σ 2 \sigma^2 σ2越大,正态分布越分散,曲线越“矮胖”,因此 σ 2 \sigma^2 σ2又叫刻度参数。
正态分布有以下几个重要的性质:
① 随机变量 X − N ( μ , σ 2 ) X-N(\mu,\sigma^2) X−N(μ,σ2), Y = a + b X Y=a+bX Y=a+bX,则 Y − N ( a + b μ , b 2 σ 2 ) Y-N(a+b\mu,b^2\sigma^2) Y−N(a+bμ,b2σ2)
② 随机变量 X − N ( μ 1 , σ 1 2 ) , Y − N ( μ 2 , σ 2 2 ) X-N(\mu_1,\sigma_1^2),Y-N(\mu_2,\sigma_2^2) X−N(μ1,σ12),Y−N(μ2,σ22),且两个变量之间相互独立,则 Z = X + Y − ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) Z=X+Y-(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2) Z=X+Y−(μ1+μ2,σ12+σ22)
③
若二维随机变量 ( X , Y ) (X,Y) (X,Y)有二维密度函数
f ( x , y ) = 1 2 π σ 1 σ 2 1 − r 2 e { − 1 2 ( 1 − r 2 ) [ ( x − μ 1 ) 2 σ 1 2 − 2 r ( x − μ 1 ) ( y − μ 2 ) σ 1 σ 2 + ( y − μ 2 ) 2 σ 2 2 ] } f(x,y)= \frac{1}{2\pi \sigma_1 \sigma_2 \sqrt{1-r^2}}e^{\{- \frac{1}{2(1-r^2)}[\frac{(x-\mu_1)^2}{\sigma_1^2}-2r\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1 \sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}]\}} f(x,y)=2πσ1σ21−r21e{−2(1−r2)1[σ12(x−μ1)2−2rσ1σ2(x−μ1)(y−μ2)+σ22(y−μ2)2]}
则称 ( X , Y ) (X,Y) (X,Y)服从二维正态分布,记为
( X , Y ) − N ( μ 1 , μ 2 , σ 1 2 , σ 2 2 ; r ) (X,Y)-N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2;r) (X,Y)−N(μ1,μ2,σ12,σ22;r)
其中 μ 1 , μ 2 , σ 1 > 0 , σ 2 > 0 ; ∣ r ∣ < 1 \mu_1,\mu_2,\sigma_1>0,\sigma_2>0;|r|<1 μ1,μ2,σ1>0,σ2>0;∣r∣<1为分布参数
二维正态分布有以下性质:
① 二维正态分布的边缘分布为正态分布,且若 ( X , Y ) − N ( μ 1 , μ 2 , σ 1 2 , σ 2 2 ; r ) (X,Y)-N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2;r) (X,Y)−N(μ1,μ2,σ12,σ22;r),则
X − N ( μ 1 , σ 1 2 ) , Y − N ( μ 2 , σ 2 2 ) X-N(\mu_1,\sigma_1^2),Y-N(\mu_2,\sigma_2^2) X−N(μ1,σ12),Y−N(μ2,σ22)
② 参数 r r r等于 X X X和 Y Y Y的相关系数,即 R ( X , Y ) R(X,Y) R(X,Y),即
R ( X , Y ) = C o v ( X ∗ , Y ∗ ) = E ( X ∗ Y ∗ ) = r R(X,Y)=Cov(X^*,Y^*)=E(X^*Y^*)=r R(X,Y)=Cov(X∗,Y∗)=E(X∗Y∗)=r
其中, X ∗ X^* X∗和 Y ∗ Y^* Y∗为 X X X和 Y Y Y的标准化随机变量。
③ r = 0 r=0 r=0时, X X X和 Y Y Y相互独立。
④ 二维随机变量 ( X , Y ) (X,Y) (X,Y)服从二维正态分布的充要条件是 X X X和 Y Y Y的任意非零线性组合 Z = a X + b Y Z=aX+bY Z=aX+bY服从一维正态分布,即 Z − N ( E ( Z ) , D ( Z ) ) Z-N(E(Z),D(Z)) Z−N(E(Z),D(Z))
均方误差的定义:
对于总体 X X X的未知参数 θ \theta θ,其估计值为 θ ‾ \overline \theta θ,则称:
M ( θ ‾ ) = E [ ( θ ‾ − θ ) 2 ] M(\overline \theta)=E[(\overline \theta -\theta)^2] M(θ)=E[(θ−θ)2]
为 θ ‾ \overline \theta θ关于 θ \theta θ的均方误差。均方误差越小,参数估计越有效。
且均方误差有以下定理: M ( θ ‾ ) = D ( θ ‾ ) + [ E ( θ ‾ ) − θ ] 2 M(\overline \theta)=D(\overline \theta)+[E(\overline \theta)-\theta]^2 M(θ)=D(θ)+[E(θ)−θ]2
最小均方误差法是指,一种能够使上述 θ ‾ \overline \theta θ关于 θ \theta θ的均方误差最小的方法。