多元高斯分布:条件分布推导

在概率统计学中,多元高斯分布是一种非常重要的分布,其条件分布的推导在实际问题中有广泛的应用。本文将详细探讨给定部分变量条件下,多元高斯分布中另一部分变量的条件分布的推导过程。


1. 多元高斯分布回顾

首先,我们回顾一下多元高斯分布的基本形式:

\mathbf{X}=\left[\begin{array}{l}\boldsymbol{x}_{a} \\ \boldsymbol{x}_{b}\end{array}\right] \sim \mathcal{N}(\mu, \boldsymbol{\Sigma})

其中,Xa和 Xb是随机向量的两个部分,μ 是均值向量,Σ 是协方差矩阵。

均值向量:

$\boldsymbol{\mu}=\left(\begin{array}{l}\boldsymbol{\mu}_{a} \\ \boldsymbol{\mu}_{b}\end{array}\right)$

协方差矩阵:

$\boldsymbol{\Sigma}=\left(\begin{array}{ll}\boldsymbol{\Sigma}_{a a} & \boldsymbol{\Sigma}_{a b} \\ \boldsymbol{\Sigma}_{b a} & \boldsymbol{\Sigma}_{b b}\end{array}\right)$

此外,使用协方差矩阵的逆矩阵也比较方便,即精度矩阵

$\boldsymbol{\Lambda} \equiv \mathbf{\Sigma}^{-1}$

从而引入精度矩阵

$\boldsymbol{\Lambda}=\left(\begin{array}{ll}\Lambda_{a a} & \Lambda_{a b} \\ \Lambda_{b a} & \Lambda_{b b}\end{array}\right)$

2. 条件分布的定义

我们的目标是找到给定 X2​ 的条件下,X1​ 的条件分布f(X1​∣X2​)。

3. 推导过程

通过使用多元高斯分布的概率密度函数以及矩阵运算的性质,我们推导出了条件分布的表达式:

\begin{array}{l}\mu_{1 \mid 2}=\mu_{1}+\boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1}\left(\mathbf{X}_{2}-\mu_{2}\right) \\ \boldsymbol{\Sigma}_{1 \mid 2}=\boldsymbol{\Sigma}_{11}-\boldsymbol{\Sigma}_{12} \boldsymbol{\Sigma}_{22}^{-1} \boldsymbol{\Sigma}_{21}\end{array}

这些表达式告诉我们在给定X2​ 条件下,X1​ 的均值和协方差矩阵的变化。

详细推导:

将联合分布除以边缘分布

f\left(\boldsymbol{x}_{a} \mid \boldsymbol{x}_{b}\right) \propto \exp \left(-\frac{1}{2}(\mathbf{X}-\mu)^{T} \boldsymbol{\Sigma}^{-1}(\mathbf{X}-\mu)\right)

根据高斯分布的性质,这个条件分布仍然是一个高斯分布,我们可以通过配方来找到均值和协方差矩阵。其中,μ 是联合分布的均值,Σ 是联合分布的协方差矩阵。将这个式子展开,得到

$\begin{array}{l}-\frac{1}{2}(x-\mu)^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})= \\ -\frac{1}{2}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)^{T} \boldsymbol{\Lambda}_{a a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)-\frac{1}{2}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)^{T} \boldsymbol{\Lambda}_{a b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right) \\ -\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)^{T} \boldsymbol{\Lambda}_{b a}\left(\boldsymbol{x}_{a}-\boldsymbol{\mu}_{a}\right)-\frac{1}{2}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)^{T} \boldsymbol{\Lambda}_{b b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)\end{array}$

我们可以对这个指数部分进行配方,将其写成一个平方项的形式。对于一个一般形式的高斯分布的指数型可以写成

-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})=-\frac{1}{2} \boldsymbol{x}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{x}+\boldsymbol{x}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}+\textit{const}

进一步,如果令x中的二阶项的系数矩阵等于协方差矩阵的逆矩阵\Sigma ^{-1},令x中的线性项的系数等于\Sigma ^{-1}\mu,这样可以得到\mu。对于所以\boldsymbol{x}_{a}的二阶项,通过上式可得如下

$-\frac{1}{2} \boldsymbol{x}_{a}^{T} \boldsymbol{\Lambda}_{a a} \boldsymbol{x}_{a}$

此外,我们把这个分布的均值和协方差分布定义为$\boldsymbol{\mu}_{a \mid b}$$\boldsymbol{\Sigma}_{a \mid b}$。进而可以看出

$\Sigma_{a \mid b}=\Lambda_{a a}^{-1}$

对于\boldsymbol{x}_{a}的所以常数项可得

$\boldsymbol{x}_{a}^{T}\left\{\boldsymbol{\Lambda}_{a a} \boldsymbol{\mu}_{a}-\boldsymbol{\Lambda}_{a b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)\right\}$

该表达式中\boldsymbol{x}_{a}系数一定等于$\boldsymbol{\Sigma}_{a \mid b}^{-1} \boldsymbol{\mu}_{a \mid b}$,因此可得

$\begin{aligned} \boldsymbol{\mu}_{a \mid b} & =\boldsymbol{\Sigma}_{a \mid b}\left\{\Lambda_{a a} \boldsymbol{\mu}_{a}-\boldsymbol{\Lambda}_{a b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)\right\} \\ & =\boldsymbol{\mu}_{a}-\boldsymbol{\Lambda}_{a a}^{-1} \boldsymbol{\Lambda}_{a b}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right)\end{aligned}$

在进行配方时,我们可以使用矩阵的分块矩阵逆运算的性质:

$\left(\begin{array}{ll}A & B \\ C & D\end{array}\right)^{-1}=\left(\begin{array}{cc}M & -M B D^{-1} \\ -D^{-1} C M & D^{-1}+D^{-1} C M B D^{-1}\end{array}\right)$

其中

$M=\left(A-B D^{-1} C\right)^{-1}$

并且定义

$\left(\begin{array}{ll}\boldsymbol{\Sigma}_{a a} & \boldsymbol{\Sigma}_{a b} \\ \boldsymbol{\Sigma}_{b a} & \boldsymbol{\Sigma}_{b b}\end{array}\right)^{-1}=\left(\begin{array}{ll}\Lambda_{a a} & \Lambda_{a b} \\ \Lambda_{b a} & \Lambda_{b b}\end{array}\right)$

进一步可得

$\begin{array}{c}\Lambda_{a a}=\left(\Sigma_{a a}-\Sigma_{a b} \Sigma_{b b}^{-1} \Sigma_{b a}\right)^{-1} \\ \Lambda_{a b}=-\left(\Sigma_{a a}-\Sigma_{a b} \Sigma_{b b}^{-1} \Sigma_{b a}\right)^{-1} \Sigma_{a b} \Sigma_{b b}^{-1}\end{array}$

这比较指数部分和多元高斯分布的形式,我们可以得到均值和协方差矩阵:

$\begin{array}{c}\boldsymbol{\mu}_{a \mid b}=\boldsymbol{\mu}_{a}+\boldsymbol{\Sigma}_{a b} \boldsymbol{\Sigma}_{b b}^{-1}\left(\boldsymbol{x}_{b}-\boldsymbol{\mu}_{b}\right) \\ \boldsymbol{\Sigma}_{a \mid b}=\boldsymbol{\Sigma}_{a a}-\boldsymbol{\Sigma}_{a b} \boldsymbol{\Sigma}_{b b}^{-1} \boldsymbol{\Sigma}_{b a}\end{array}$

推导核心:当对多元高斯分布进行条件分布时,涉及到平方项完成。这是通过补全平方项,将二次型的形式变换为完全平方的形式。在高斯分布的条件分布推导中,平方项完成的技巧经常被用于简化表达式,使其更容易处理。比如在给定 X2​=x2​ 条件下计算 X1​ 的条件分布,涉及到将二次型(x−μ)TΣ−1(x−μ) 分解为平方项的形式,从而方便计算条件均值和协方差。上述数学表达式可以表示为以下的公式形式

\begin{array}{l}(x-\mu)^{T} \Sigma^{-1}(x-\mu)=\left(x_{1}-\mu_{1}\right)^{T} \Sigma_{1 \mid 2}^{-1}\left(x_{1}-\mu_{1}\right)+\left(x_{2}-\mu_{2}\right)^{T} \Sigma_{2 \mid 1}^{-1}\left(x_{2}-\right. \\ \left.\mu_{2}\right)+ \text {const }\end{array}

这里,Σ1∣2​ 和 Σ2∣1​ 是条件协方差矩阵,而 μ1​ 和 μ2​ 分别是 X1​ 和 X2​ 的均值向量。这个公式的形式是通过平方项完成的技巧得到的,它在条件高斯分布的计算中非常有用。


4. 结论

多元高斯分布的条件分布推导是概率统计学中的经典问题之一。通过本文的讨论,我们详细了解了给定部分变量条件下另一部分变量的条件分布是如何推导出来的。这对于理解多元高斯分布的性质以及在实际问题中的应用具有重要意义。在实际应用中,这样的推导常常用于处理多变量问题,例如在金融、工程和机器学习等领域。希望本文对读者理解和应用多元高斯分布的条件分布提供了有益的信息。

你可能感兴趣的:(导航算法及滤波,机器学习,人工智能,算法)