变量消元(Varible Elimination)和概率边缘化(Marginalization)的关系

先定义消元:在解线性方程组的时候,把一个变量带入到另外一个变量中,达到减少变量的就结果。

  • 虽然方程数少了,但是单个方程变复杂了,所以其实方程组携带的信息并没有减少。
  • 如果把方程组写成矩阵形式,就对应之前线性代数学的高斯消元。
  • 消元的一个作用是把方程变成上三角形式,就可以很轻松的计算出方程组的解。能计算出解,那么也能求出对应矩阵的逆。这就是为什么消元很重要的原因。

再定义边缘化:边缘化的普通定义我就不多说了,就是求积分那个。

  • 当我们是边缘化一个多元高斯分布的随机变量的时候,如果我们知道这个随机变量的均值和协方差矩阵(\mu , \Sigma)。那么边缘化就是直接把\mu , \Sigma中对应于要保留的分量拿出来就行。
  • 假设a是要保留的,b是要被边缘化的。那么边缘化后不带b的概率分布就是只保留\mu , \Sigma中和a有关的那一部分。

多元高斯分布的最大后验值(MAP)

  • 我们想知道x取什么的时候,这个函数的值最大。很显然就是x=\mu的时候
  • 高斯函数还有另外一种表示方法
  • 其实就是把exp里面的展开就能得到这个表达:\upsilon =\Sigma ^{-1}\mu\Lambda =\Sigma ^{-1}
  • 这里面\upsilon叫做信息向量,\Lambda就是传说中的信息矩阵了
  • 如果我们知道的表达形式是这种形式,就不能直接通过读均值知道MAP的结果了。
  • 这种表示情况下MAP的结果是\mu=\Lambda ^{-1} \upsilon。也就是我们需要求信息矩阵的逆才能得到想要的东西。矩阵求逆等价于求方程,所以就和消元扯上关系了。

高斯分布条件下消元和边缘化的关系

  • 基于上面的分析,边缘化是求\mu , \Sigma中只和某些变量相关block。也就是求\Lambda中的元素和\Sigma中要求的block的关系。\Sigma\Lambda是逆的关系,所以\Sigma中的每一个元素都和\Lambda中的每一个元素有关。既然是求逆,也就和消元搭上关系了。
  • 变量消元(Varible Elimination)和概率边缘化(Marginalization)的关系_第1张图片
  • 既然和\Lambda中的所有元素都有关,所以不是简单的丢弃性息。

和状态求解的关系

  • 如果我们之表达相互独立的每次观察的结果的时候,可以直接用第一种表达写出观察两的分布。并且我们还知道我们真正关心的值和观察量之间有一定关系。也就是基于现实所知的信息能写出的一个表达通常是exp(||Ax-b||^2_\Sigma )
  • x是一个随即变量,是我们想要求得的分布。A和b是已知的数据。Ax-b的到的随机变量分布也是已知的,是均值为0,协防差是\Sigma的高斯分布。
  • Mahalanobis距离是可以转化为L2距离:||A||^2_\Sigma->||A||^2_2,所以最终高斯函数的表示变为exp(||Ax-b||^2_2 )。多个这样的表示连乘求对数,对应为多个||Bx-d||^2_2相加。
  • Bx-d的结果是一个向量,||Bx-d||^2_2就是向量点乘的直。
  • ||Bx-d||^2_2的形式为多个项的平方加在一起。B有多少行,这个平方和就有多少项。多个||Bx-d||^2_2加一起,就是把这些平方全部加一起。所以可以组成一个大矩阵。这个矩阵的列数等于x的维度。行数为所有B的行数的和。
  • 变量消元(Varible Elimination)和概率边缘化(Marginalization)的关系_第2张图片
  • A^TA只有一个因子内部会有交叉项,因子之间不会出现交叉项。这就是为什么A^TA分布图里面对角上面会很密集。
  • 我们知道当Bx-d=0的时候,对应概率密度函数最大。所以就是要求解这个方程了。
  • 因为B不是方阵,所以不能简单的用B的逆来求解,而要用广义逆。
  • 在注意这里Bx-d不能直接和上面的信息矩阵对应\Lambda =\Sigma ^{-1}

和矩阵分解的关系

  • 在求逆的时候,会使用矩阵分解的方法。
  • 而矩阵的顺序对矩阵分解的计算量影响很大,比如slam中把和3d点有关的误差项排列在后面一起可以打打减少计算量。所以怎么排列矩阵就是一个大学问,isam中通过对图的变换,自动的实现最优的排列。并且当有新的变量加入的时候,通过对图的分析可以知道,那些因子是受新变量影响的哪些不是。从而实现部分更新。

你可能感兴趣的:(建图和定位)