【SLAM十四讲 】第六讲

第六讲非线性优化

首先对这章要用到的概率知识点做一些回顾

知识点回顾

  • 概率与统计

概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。

  • 贝叶斯公式

P\left ( A \mid B \right ) = \frac{P\left ( B \mid A \right )P\left ( A \right ) }{ P\left ( B \right )}P(A)即是常说的先验概率。

展开分母

P\left ( A \mid B \right ) = \frac{P\left ( B \mid A \right )P\left ( A \right )}{P\left ( B \mid A \right )P \left ( A \right )+P\left ( B \mid \sim A \right )P \left ( \sim A \right )}其中,\sim A表示非A

贝叶斯公式就是在描述,你有多大把握能相信一件证据?(how much you can trust the evidence)

我们假设响警报的目的就是想说汽车被砸了。把A计作“汽车被砸了”,B计作“警报响了”,带进贝叶斯公式里看。

我们想求等式左边发生A|B的概率,这是在说警报响了,汽车也确实被砸了。汽车被砸引起(trigger)警报响,即B|A。但是,也有可能是汽车被小孩子皮球踢了一下、被行人碰了一下等其他原因(统统计作∼A),其他原因引起汽车警报响了,即B|∼A。

那么,现在突然听见警报响了,这时汽车已经被砸了的概率是多少呢(这即是说,警报响这个证据有了,多大把握能相信它确实是在报警说汽车被砸了)?想一想,应当这样来计算。用警报响起、汽车也被砸了这事件的数量,除以响警报事件的数量(这即【式1】)。进一步展开,即警报响起、汽车也被砸了的事件的数量,除以警报响起、汽车被砸了的事件数量加上警报响起、汽车没被砸的事件数量(这即【式2】)

  • 似然函数

P\left ( x \mid \theta \right )

该输入有两个:x表示某一个具体的数据;θ表示模型的参数。

如果θ是已知确定的,x是变量,这个函数叫做概率函数(probability function),它描述对于不同的样本点x,其出现概率是多少。

如果x是已知确定的,θ是变量,这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数,出现x这个样本点的概率是多少。

例如, f(x,y)=x^{y}, 即x的y次方。如果x是已知确定的(例如x=2),这就是f(y)=2^{y}, 这是指数函数。 如果y是已知确定的(例如y=2),这就是f(x)=x^{2},这是二次函数。同一个数学形式,从不同的变量角度观察,可以有不同的名字。

  • 最大似然估计

举例:一枚硬币,想知道抛这枚硬币,正反面出现的概率(记为\theta)各是多少?

这是一个统计问题:data 到 model(\theta

硬币抛10次,得到的数据(x_{0})是:反正正正正反正正正反。我们想求的正面概率\theta是模型参数,而抛硬币模型我们可以假设是 二项分布。那么,出现实验结果x_{0}(即反正正正正反正正正反)的似然函数是多少呢?

f\left ( x_{0}, \theta \right )=(1-\theta)*\theta*\theta*\theta*\theta*(1-\theta)*\theta*\theta*\theta*(1-\theta)=\theta^{7}*(1-\theta)^{3}   注意,这是个只关于θ的函数。

而最大似然估计,顾名思义,就是要最大化这个函数,见下图,找极值。

likeli

可以看出,在\theta=0.7时,似然函数取得最大值。

这样,我们已经完成了对\theta的最大似然估计。即,抛10次硬币,发现7次硬币正面向上,最大似然估计认为正面向上的概率是0.7。(ummm..这非常直观合理,对吧?)

这里包含了贝叶斯学派的思想了——要考虑先验概率。 为此,引入了最大后验概率估计。

  • 最大后验概率估计

最大似然估计是求参数\theta, 使似然函数P(x_{0} \mid \theta)最大。最大后验概率估计则是想求\theta使P\left ( x_{0} \mid \theta \right ) P\left ( \theta \right ) 最大。求得的\theta不单单让似然函数大,\theta自己出现的先验概率也得大。 

 

MAP其实是在最大化 P\left (\theta \mid x_{0} \right ) =\frac{P\left ( x_{0} \mid \theta \right ) P\left ( \theta \right )}{P\left ( x_{0} \right )} ,因为分母其实是已知且固定的。最大化P(\theta |x_{0})的意义也很明确,x0已经出现了,要求\theta取什么值使P(\theta |x_{0})最大。顺带一提,P(\theta |x_{0})即后验概率,这就是“最大后验概率估计”名字的由来。

对于投硬币的例子来看,我们认为(”先验地知道“)\theta取0.5的概率很大,取其他值的概率小一些。我们用一个高斯分布来具体描述我们掌握的这个先验知识,例如假设P(θ)为均值0.5,方差0.1的高斯函数,如下图

ptheta

P\left ( x_{0} \mid \theta \right ) P\left ( \theta \right )的图像为

map1

注意,此时函数取最大值时,θ取值已向左偏移,不再是0.7。实际上,在θ=0.558时函数取得了最大值。即,用最大后验概率估计,得到θ=0.558。


  • 多维高斯分布

https://www.cnblogs.com/jermmyhsu/p/8251013.html

 

 https://blog.csdn.net/u011508640/article/details/72815981

你可能感兴趣的:(SLAM十四讲,CV/统计,理论&算法,SLAM领域,SLAM十四讲学习)