多元高斯分布:边缘分布推导

边缘概率分布及其边缘化推导

p\left(\boldsymbol{x}_{a}\right)=\int p\left(\boldsymbol{x}_{a}, \boldsymbol{x}_{b}\right) \mathrm{d} \boldsymbol{x}_{b}

与条件分布类似,主要策略是集中于联合分布的指数项的二次型,然后找出边缘分布的均值和协方差。联合分布二次型可以可以表述如下(参考条件分布博文):

\begin{array}{l}-\frac{1}{2}(x-\mu)^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})= \\ -\frac{1}{2}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)^{T} \boldsymbol{\Lambda}_{a a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)-\frac{1}{2}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)^{T} \boldsymbol{\Lambda}_{a b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right) \\ -\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)^{T} \boldsymbol{\Lambda}_{b a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)-\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)^{T} \boldsymbol{\Lambda}_{b b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)\end{array}

为了积分xb,按照如下进行:1、考虑涉及xb的项;2、配出平方项,使得积分能够更方便的计算;选出涉及xb的项,我们有如下

-\frac{1}{2} x_{b}^{T} \boldsymbol{\Lambda}_{b b} x_{b}+x_{b}^{T} \boldsymbol{m}=-\frac{1}{2}\left(x_{b}-\boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{m}\right)^{T} \boldsymbol{\Lambda}_{b b}\left(x_{b}-\boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{m}\right)+\frac{1}{2} \boldsymbol{m}^{T} \boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{m}

其中

\boldsymbol{m}=\Lambda_{b b} \mu_{b}-\Lambda_{b a}\left(x_{a}-\mu_{a}\right)

可以发现,与xb相关的项被转化为一个高斯分布的标准二次型,对应于

-\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{m}\right)^{T} \boldsymbol{\Lambda}_{b b}\left(\boldsymbol{x}_{b}-\boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{m}\right)

此外,与xb无关但与xa有关的项

\frac{1}{2} \boldsymbol{m}^{T} \boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{m}

因此,当其转化为关于xb的积分形式时

\int \exp \left\{-\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{m}\right)^{T} \boldsymbol{\Lambda}_{b b}\left(\boldsymbol{x}_{b}-\boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{m}\right)\right\} \mathrm{d} \boldsymbol{x}_{b}

通过关于xb配出平方项的方法,可以积分出xb,余下项(与xb无关但与xa有关的项)可得如下

$\begin{array}{l} \frac{1}{2}\left[\boldsymbol{\Lambda}_{b b} \boldsymbol{\mu}_{b}-\boldsymbol{\Lambda}_{b a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)\right]^{T} \boldsymbol{\Lambda}_{b b}^{-1}\left[\boldsymbol{\Lambda}_{b b} \boldsymbol{\mu}_{b}-\boldsymbol{\Lambda}_{b a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)\right] \\ -\frac{1}{2} \boldsymbol{x}_{a}^{T} \boldsymbol{\Lambda}_{a a} \boldsymbol{x}_{a}+\boldsymbol{x}_{a}^{T}\left(\boldsymbol{\Lambda}_{a a} \boldsymbol{\mu}_{a}+\boldsymbol{\Lambda}_{a b} \boldsymbol{\mu}_{b}\right)+const \\ =-\frac{1}{2} \boldsymbol{x}_{a}^{T}\left(\boldsymbol{\Lambda}_{a a}-\boldsymbol{\Lambda}_{a b} \boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{\Lambda}_{b a}\right) \boldsymbol{x}_{a} +\boldsymbol{x}_{a}^{T}\left(\boldsymbol{\Lambda}_{a a}-\boldsymbol{\Lambda}_{a b} \boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{\Lambda}_{b a}\right) \boldsymbol{\mu}_{a}+ const\end{array}$

其中再与二次型相比较,边缘概率分布p(xa)的协方差矩阵为

\boldsymbol{\Sigma}_{a}=\left(\boldsymbol{\Lambda}_{a a}-\boldsymbol{\Lambda}_{a b} \boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{\Lambda}_{b a}\right)^{-1}

均值为

\boldsymbol{\Sigma}_{a}\left(\boldsymbol{\Lambda}_{a a}-\boldsymbol{\Lambda}_{a b} \boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{\Lambda}_{b a}\right) \boldsymbol{\mu}_{a}=\boldsymbol{\mu}_{a}

类似于条件概率分布

\left(\begin{array}{ll}\boldsymbol{\Lambda}_{a a} & \boldsymbol{\Lambda}_{a b} \\ \boldsymbol{\Lambda}_{b a} & \boldsymbol{\Lambda}_{b b}\end{array}\right)^{-1}=\left(\begin{array}{cc}\boldsymbol{\Sigma}_{a a} & \boldsymbol{\Sigma}_{a b} \\ \boldsymbol{\Sigma}_{b a} & \boldsymbol{\Sigma}_{b b}\end{array}\right)

并且根据分块矩阵的逆矩阵的恒等式

\left(\begin{array}{ll}A & B \\ C & D\end{array}\right)^{-1}=\left(\begin{array}{cc}M & -M B D^{-1} \\ -D^{-1} C M & D^{-1}+D^{-1} C M B D^{-1}\end{array}\right)

以及

M=\left(A-B D^{-1} C\right)^{-1}

进而可得

\left(\boldsymbol{\Lambda}_{a a}-\boldsymbol{\Lambda}_{a b} \boldsymbol{\Lambda}_{b b}^{-1} \boldsymbol{\Lambda}_{b a}\right)^{-1}=\boldsymbol{\Sigma}_{a a}

即边缘概率p(xa)的均值和协方差为

\begin{aligned} \mathbb{E}\left[\boldsymbol{x}_{a}\right] & =\boldsymbol{\mu}_{a} \\ \operatorname{cov}\left[\boldsymbol{x}_{a}\right] & =\boldsymbol{\Sigma}_{a a}\end{aligned}

优势性总结:

  1. 维度的降低: 边缘概率分布允许我们从高维随机变量中提取关心的部分,使得问题的复杂性得到降低。在实际应用中,许多问题中只关心某些变量的分布,边缘化允许我们将注意力集中在重要的部分上。

  2. 简化问题: 通过边缘化,我们可以将原问题简化为更易处理的子问题。这在统计推断、机器学习模型的开发以及贝叶斯推理中都是常见的操作。

  3. 独立性的建模: 边缘概率分布允许我们对随机变量的独立性进行建模。如果两个变量在边缘分布下是独立的,那么它们的联合分布可以通过简单地将各自的边缘分布相乘得到。

你可能感兴趣的:(导航算法及滤波,人工智能,概率论,算法)