[算法]PRML学习笔记 1.2.2 数学期望和协方差

数学期望

在概率学中最重要的事情之一就是寻找出函数的加权平均值。其中函数f(x)的数学期望E[f]是根据其在概率分布p(x)下的平均值计算得出。

对于离散分布变量,其公式为:E[f]= ∑ x p ( x ) f ( x ) \displaystyle\sum_{x}p(x)f(x) xp(x)f(x)

因此,从这个公式可以得出对于离散变量来说数学期望(平均权重)来自于根据各个不同变量x相关的f(x)与这个f(x)相对概率p(x)计算得出。这里比较绕,根据个人理解可以分为以下几步:

  1. 找出所有可能出现的变量x
  2. 将其中一个变量x代入f(x)计算,得出f(x)的值
  3. 计算该f(x)在整体分布中的概率p(x)
  4. 将得出的p(x)*f(x)得出一个该变量x在该函数中的数学期望
  5. 整体函数的数学期望E[f]为:所有可能出现的变量x的数学期望相加

对于连续变量来说,数学期望是根据函数f(x)相对应的概率密度通过积分计算得出,其公式为 E [ f ] = ∫   p ( x ) f ( x ) d x   E[f] = \int_\ p(x)f(x)dx\, E[f]= p(x)f(x)dx

用通俗易懂的话来解释就是函数f(x)所对应的概率密度函数p(x)的面积为该函数的数学期望。

下图为:PRML 1.2.1 中所示例图,其中绿色部分为f(x)的部分数学期望。
[算法]PRML学习笔记 1.2.2 数学期望和协方差_第1张图片
在无论是连续变量还是离散分布变量这两种情况下,如果是在概率密度概率分布中存在有限的N个点,那么整体数学期望可以近似看成这些有限点的总和,其公式为: E[f] ~1/N ∑ n = 1 N f ( x n ) \displaystyle\sum_{n=1}^{N}f(x_n) n=1Nf(xn)

上面这个公式当N趋紧与无穷时( N − > ∞ N->\infty N>),结果是精确的

多变量函数期望

在计算多变量函数期望的时候,可以运用下标来表示哪个变量被平均了。列如下面这个公式: E x [ f ( x , y ) ] E_x[f(x,y)] Ex[f(x,y)]这个公式表示了 f ( x , y ) f(x,y) f(x,y)关于x分布的平均值。这里注意: E x [ f ( x , y ) ] E_x[f(x,y)] Ex[f(x,y)]将是y的函数。

条件期望

我们也可以根据条件分布来考虑条件期望假设,这里对连续分布的变量也适用,公式为:E[f|y]= ∑ x p ( x ∣ y ) f ( x ) \displaystyle\sum_{x}p(x|y)f(x) xp(xy)f(x)

协方差

关于f(x)的方差可用如下公式展示: v a r [ f ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] var[f]=E[(f(x)-E[f(x)])^2] var[f]=E[(f(x)E[f(x)])2]
这个公式提供了一种度量值来观测f(x)的均值E[f(x)]周围有多少变异性
展开平方后,可以发现方差也能写成关于 f ( x ) f(x) f(x) f ( x ) 2 f(x)^2 f(x)2数学期望格式,其公式为: v a r [ f ] = E [ f ( x ) 2 ] − E [ f ( x ) ] 2 var[f]=E[f(x)^2]-E[f(x)]^2 var[f]=E[f(x)2]E[f(x)]2

特殊状况

在特别情况下,可以考虑变量x本身的方差,其公式为: v a r [ f ] = E [ x 2 ] − E [ x ] 2 var[f]=E[x^2]-E[x]^2 var[f]=E[x2]E[x]2

公式推导

对于两个随机变量x和y,协方差可以定义为如下公式推导: c o v [ x , y ] = E x , y cov[x,y]=E_x,y cov[x,y]=Ex,y[{ x − E [ x ] x-E[x] xE[x]} { y − E [ y ] y-E[y] yE[y]}] = E x , y [ x y ] − E [ x ] E [ y ] E_x,y[xy]-E[x]E[y] Ex,y[xy]E[x]E[y]
这个公式推导表示了x和y一起的变化程度。如果x和y是独立的关系(independent),那么它们的协方差就会消失

两个向量(vector)情况下

在随机变量x和y是两个向量的情况下,协方差为一个举证,其公式推导如下: c o v [ x , y ] = E x , y [ x − E [ x ] y T − E [ y T ] ] = E x , y [ x y T ] − E [ x ] E [ y T ] cov[x,y]=E_x,y[{x-E[x]}{y^T-E[y^T]}] =E_x,y[xy^T]-E[x]E[y^T] cov[x,y]=Ex,y[xE[x]yTE[yT]]=Ex,y[xyT]E[x]E[yT]

如果考虑向量x与各分量之间的协方差,这里可以简化公式为: c o v [ x ] = c o v [ x , x ] cov[x]=cov[x,x] cov[x]=cov[x,x]

总结

数学期望:

  1. 离散分布变量:概率分布;总和
  2. 连续变量:概率密度函数;面积
  3. 有限n个点:总和;除以n

协方差:

  1. 方差与数学期望的结合: f ( x ) f(x) f(x) f ( x ) 2 f(x)^2 f(x)2
  2. 协方差公式推导;如果独立,协方差消失
  3. 两个向量:协方差为矩阵

参考文献:
Pattern Recognition and Machine Learning
Published by Springer | January 2006
https://www.microsoft.com/en-us/research/publication/pattern-recognition-machine-learning/

你可能感兴趣的:(算法,算法)