用高斯过程的动机

以前接触高斯函数觉得很奇怪,在许多领域里面高斯过程都是不可分割的一部分,图像里面有高斯滤波,卡尔曼滤波用的也是高斯等等,。在上了随机过程这门课以后,张灏老师非常详细的讲解了使用高斯过程的动机,最起码现在从一头雾水成了一知半解了吧,这部分内容还是挺有趣的,所以就将它记录一下,免得忘记了。课堂上,老师从三个方面讲述了学习高斯过程的动机。

一、从中心极限定理出发(Central Limit Theorem)

首先说明一下什么是大数定律和中心极限定理。

分别是独立同分布的随机变量,简称。

大数定律为,当样本数量趋近于无穷大的时候,他们的和除以总数趋近于均值:

中心极限定理说明当样本数量趋近于无穷大的时候,他们的和除以根号n趋近于一个均值为0,方差为1的高斯分布,,当然均值和方差的值是由于随机变量决定的,即,。

如何证明这两个定理呢?这里需要引入一个特征函数,了解傅里叶变换的人可以知道这就相当于对做傅里叶反变换。

设,所以

可以看到随着样本数量的增多,Y的特征函数随机性是在增加的。

大数定律的证明

   

对进行泰勒展开:

 

其中是样本的均值,根据,所以可以得出在n趋向于无穷的情况下:

易得:

中心极限定理的证明:

前面一部分与上面的正面相似,只不过就是将n变成了根号n,为,对其进行泰勒展开,不过这回展开得到二阶项,为:

\Phi_{\frac{X_{k}}{\sqrt{n} } }(\omega )=E(1+\frac{j\omega{X_k} }{\sqrt{n} }+\frac{1}{2}  (\frac{j\omega{X_k} }{\sqrt{n} })^2+O(\frac{1}{n} )\\=1+j\omega \frac{\mu }{\sqrt{n} }-\frac{\omega^2}{2n}   +O(\frac{1}{n} )  

由于前面规定了均值为0,方差为1,所以上式的第二项为0,可以得出:

          

现在就需要证明是不是一个高斯过程的特征函数了,证明过程如下:

设随机变量~,则

   

将上式积分里面的e的指数进行配方,配方的要求是将有x的项都放在一起,配方的结果如下:

\Phi_X(\omega ) =\frac{1}{\sqrt{2\pi } \sigma } \int_{R^n}\exp(-\frac{1}{2\sigma ^2 }(x-\mu -j\sigma ^2\omega )^2+j\omega \mu -\frac{1}{2}\sigma ^2\omega ^2)dx  \\=\exp(j\omega \mu -\frac{1}{2}\sigma ^2\omega ^2)\frac{1}{\sqrt{2\pi}\sigma } \int_{R_n}\exp( -\frac{1}{{2\sigma ^2} }(x-\mu -j\sigma ^2\omega )^2)dx

可以看到积分里面恰好是一个高斯函数,则它的积分为,则后面的积分加系数为1,综上所述:

                     

所以若X的均值为0,方差为1,高斯过程的特征函数刚好就是,那么就可以得到结论就是中心极限定理的值趋近于高斯分布。这也可以说明了当随机变量的总和除以n的时候,变量的随机性都给抹杀了,而除以根号n,变量之间的关系还是存在的,并没有将随机性全部给抹去。

二、从最大熵的角度出发(Maximum Entropy)

熵在信息论里面是信息的度量,熵越大,信息的不确定性也就越大,熵的定义如下:

   一般对数以2为底               

在概率分布里面,均匀分布的时候熵是最大的,但是在实际过程中,如果自变量是从负无穷到正无穷,那么均匀分布就不好表示了,所以这里需要求一个最大熵,在自变量的区间从负无穷到正无穷的时候,熵的最大值,也就是最大熵的分布是怎样的呢?最大熵在不同的约束下有不同的最大分布,这里我们就约束到了二阶矩,最大熵就是求满足如下条件的所有概率密度函数的熵的最大值

1、,当x在支撑集外部时等号成立

2、

3、

4、

证明过程如下:

设,是X的概率密度函数,使用拉格朗日数乘法可以得到下式:

一般这个时候就是对上面的公式求导找出导数为0的点,这里G(f)不仅与有关,与其导数和x均有关,就相当于一个泛函,函数的函数,所以直接求导就不是那么容易的一件事情了,这里就使用了变分的方法。

将H(t)设置成为的函数,是极值函数或者是极值曲线(即让G达到最大值的函数),g是一个可微函数,t是一微量的参变量,其中:

所以在t=0处的导数为: (因为为极大值),那么  (对数是以e为底)

    

由于导数是在t=0的时候为0,所以将t=0代入上式:

可以得到在约束到二阶矩的最大熵为高斯分布,不过一定得注意最大熵并不一定都是高斯分布,他与概率密度函数的约束有关。

三、从分子运动的角度(Molecular Dynamic)

想象一下比如说有n个分子,在一维的空间中运动,你会使用什么样的模型来描述它呢?由于分子之间存在相互碰撞,如果仅仅研究单个分子的运动是很难的,因为分子之间是相互影响的。爱因斯坦在1905年就提出了一个用统计模型来描述分子运动的方法。设一个模型为:

则分子的分布为:

(1)

分别对两个变量进行泰勒展开:

将两式分别带入方程(1)可以得到:

这是一个扩散方程,,通过它可以得到:

这就是一个高斯函数,由于自己的物理实在是不行,这个扩散方程就不细讲了。不过,可以知道的是许多噪声都来源于分子的热运动,所以这也能解释为何有时候噪声的设定会喜欢用高斯了。

总结

以上就是课上老师所讲的使用高斯过程的原因,当然里面还有许多细节部分还是需要推敲的,但我觉得能理解这些大概的就可以了,高斯过程是一个很奇妙的过程,它的性质也有很多,最重要的还是得去理解它本身的性质。后期有时间再记录高斯过程这个性质和它的变体吧。

参考

张灏老师的随机过程

你可能感兴趣的:(用高斯过程的动机)