CS229《机器学习》笔记 | 多元高斯分布的边缘分布和条件分布

吴恩达的《机器学习(CS229)》Lecture note 9(Part X Factor analysis)中提及了多元高斯分布的边缘分布和条件分布,指出这两者本身亦是高斯分布,但没有给出详细的证明。我自己尝试着推导,但不得要领,直到上网搜索后才恍然大悟。现将该证明过程记录于此,关键在于对协方差矩阵进行LDU分解。

边缘分布

一个多元概率分布的部分元所服从的概率分布即边缘分布,通过将剩余元求和或积分得到。比如,对于一个二元(用X,Y代表其随机变量)概率密度函数p_{X,Y}(x,y)(可理解为X∈[x, x+dx]且Y∈[y, y+dy]的概率),X所服从的边缘分布的密度函数通过将变量Y积分得到,即

p_X(x)=\int p_{X,Y}(x,y)dy                                                                                                                                  (1)

代表X∈[x, x+dx]而Y可以是任意值的概率。

条件分布

设A和B是两个事件,条件概率定义为在事件A发生的条件下,事件B发生的概率

P(B|A)=\frac{P(AB)}{P(A)}                                                                                                                                            (2)

依旧以上述的二元概率密度为例,根据定义,其条件概率密度即为

p_{X|Y}(x|y)=\frac{p_{X,Y}(x,y)}{p_Y(y)}                                                                                                                                    (3)

于是,上述的边缘概率密度也可进一步表示为

p_X(x)=\int p_{X,Y}(x,y)dy=\int p_{X|Y}(x|y)p_Y(y)dy                                                                                         (4)

多元高斯分布

多元高斯分布是一维情况的推广。在一维时,假设随机变量X服从高斯分布,其概率密度为

p_X(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left[-\frac{(x-\mu)^2}{2\sigma^2} \right]                                                                                                                   (5)

记作X\sim N\left ( \mu,\sigma^2 \right ),其中\mu为随机变量X的期待值,\sigma^2为方差。现推广到n个随机变量\{ X_1,\ X_2,\ \cdots, X_n\},此时,对应的密度函数指数部分为这n个变量的一个二次型(假设各随机变量的期待值均为0),即一个实系数的二次齐次函数

CS229《机器学习》笔记 | 多元高斯分布的边缘分布和条件分布_第1张图片                                                                                              (6)

更一般地,记n个随机变量的期待值为\large \{ \mu_1,\ \mu_2,\ \cdots, \mu_n\},则对应的密度函数由上式平移得到:

f(x_1-\mu_1,x_2-\mu_2,\cdots,x_n-\mu_n)\\=a_{11}(x_1-\mu_1)^2+a_{12}(x_1-\mu_1)(x_2-\mu_2)+\cdots+a_{1n}(x_1-\mu_1)(x_n-\mu_n) \\+a_{22}(x_2-\mu_2)^2+a_{23}(x_2-\mu_2)(x_3-\mu_3)+\cdots+a_{2n}(x_2-\mu_2)(x_n-\mu_n) \\+\cdots \\+a_{nn}(x_n-\mu_n)^2                                                (7)

写成矩阵,记\boldsymbol{X} = (X_1\ X_2\ \cdots X_n)^T\boldsymbol{x}=\left ( x_1\ x_2\ \cdots\ x_n \right )^T\boldsymbol{\mu}=\left ( \mu_1\ \mu_2\ \cdots\ \mu_n \right )^T,引入一个n x n的对称正定矩阵\Sigma^{-1},并且归一化,可得到多元高斯分布密度函数的通用形式

p_{\boldsymbol{X}}(\boldsymbol{x})=\frac{1}{\sqrt{(2\pi)^n\left | \Sigma \right |}}\exp\left[-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right]                                                                                (8)

记作\boldsymbol{X}\sim N\left ( \boldsymbol{\mu}, \Sigma\right ),其中\Sigma对应于一维中的方差\sigma^2,称为协方差矩阵。

多元高斯分布的边缘分布

现在,假设我们要求服从上述多元高斯分布的n维随机变量中的X_1所服从的边缘分布,根据定义,其概率密度通过以下积分得到

p_X_1(x_1)=\int p_{\boldsymbol{X}}(x_1, x_2,\cdots, x_n)dx_2 \cdots dx_n =\frac{1}{\sqrt{(2\pi)^n\left | \Sigma \right |}} \int \exp\left[-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right]dx_2 \cdots dx_n           (9)

直接积分比较繁琐,我们不妨先做一些整体的观察。首先,根据(7)式,我们发现,将除X1之外的随机变量都积分之后,得到的正是一个一维高斯分布,这当然是符合预期的,也正是将如上的多元分布称为高斯分布的原因,现在就要想办法从上式所示的积分中得到这一结果。另外,为了方便对\Sigma取逆,最好将其和一个对角矩阵联系起来。根据这些观察,我们对\Sigma进行LDU分解,即分解成下三角矩阵、对角矩阵和上三角矩阵的乘积。

不失一般性,将\Sigma写成如下的2x2分块矩阵(其中\Sigma_{11}为p x p方阵,\Sigma_{22}为q x q方阵,\Sigma_{12}为p x q矩阵,并且p+q=n)

\begin{pmatrix} \Sigma_{11} & \Sigma_{12}\\ \Sigma_{12}^T & \Sigma_{22} \end{pmatrix}

由于\Sigma是正定的,所以其顺序主子式\left | \Sigma_{11} \right | > 0,因而\Sigma_{11}可逆。利用高斯消去法,将\Sigma化为块对角阵,用矩阵的语言表达为:

\begin{pmatrix} \Sigma_{11} & 0 \\ 0 & \Sigma_{22}-\Sigma_{12}^T\Sigma_{11}^{-1}\Sigma_{12} \end{pmatrix} =\begin{pmatrix} I_p & 0\\ -\Sigma_{12}^T\Sigma_{11}^{-1} & I_q \end{pmatrix} \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{12}^T & \Sigma_{22} \end{pmatrix}\begin{pmatrix} I_p & -\Sigma_{11}^{-1}\Sigma_{12} \\0 & I_q \end{pmatrix}

于是有

\Sigma= \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{12}^T & \Sigma_{22} \end{pmatrix}=\begin{pmatrix} I_p &0 \\ \Sigma_{12}^{T}\Sigma_{11}^{-1} & I_q \end{pmatrix}\begin{pmatrix} \Sigma_{11} & 0 \\ 0 & \Sigma_{22}-\Sigma_{12}^T\Sigma_{11}^{-1}\Sigma_{12} \end{pmatrix} \begin{pmatrix} I_p & \Sigma_{11}^{-1}\Sigma_{12} \\ 0 & I_q \end{pmatrix}

其中\Sigma_{22}-\Sigma_{12}^T\Sigma_{11}^{-1}\Sigma_{12}为协方差矩阵\Sigma\Sigma_{11} 块的Schur补,可记作\Sigma/\Sigma_{11}

取逆后便得到

\Sigma^{-1}=\begin{pmatrix} I_p & -\Sigma_{11}^{-1}\Sigma_{12} \\ 0 & I_q \end{pmatrix}\begin{pmatrix} \Sigma_{11}^{-1} & 0 \\ 0 & \left( \Sigma/\Sigma_{11}\right )^{-1} \end{pmatrix} \begin{pmatrix} I_p & 0 \\ -\Sigma_{12}^{T}\Sigma_{11}^{-1} & I_q \end{pmatrix}

代入(8)式的指数部分:

(\boldsymbol{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\\=\begin{pmatrix} (\boldsymbol{x}-\boldsymbol{\mu})_1 \\ (\boldsymbol{x}-\boldsymbol{\mu})_2-\Sigma_{12}^{T}\Sigma_{11}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})_1 \end{pmatrix}^T\begin{pmatrix} \Sigma_{11}^{-1} & 0 \\ 0 & \left(\Sigma/\Sigma_{11} \right )^{-1} \end{pmatrix}\begin{pmatrix} (\boldsymbol{x}-\boldsymbol{\mu})_1 \\ (\boldsymbol{x}-\boldsymbol{\mu})_2-\Sigma_{12}^{T}\Sigma_{11}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})_1 \end{pmatrix}\\ = (\boldsymbol{x}-\boldsymbol{\mu})_1^T \Sigma_{11}^{-1} (\boldsymbol{x}-\boldsymbol{\mu})_1\\+ \left((\boldsymbol{x}-\boldsymbol{\mu})_2-\Sigma_{12}^{T}\Sigma_{11}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})_1\right)^T\left(\Sigma/\Sigma_{11}\right)^{-1}\left((\boldsymbol{x}-\boldsymbol{\mu})_2-\Sigma_{12}^{T}\Sigma_{11}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})_1\right)                               (10)

其中

(\boldsymbol{x}-\boldsymbol{\mu})_1=(x_1-\mu_1,x_2-\mu_2,\cdots,x_p-\mu_p)^T\\(\boldsymbol{x}-\boldsymbol{\mu})_2=(x_{p+1}-\mu_{p+1},x_{p+2}-\mu_{p+2},\cdots,x_n-\mu_n)^T

可见,原n元高斯分布密度函数可以分解成一个p元高斯分布密度函数与一个q元高斯分布密度函数之积,前者涉及原前p个随机变量,期待值不变,但协方差矩阵为\Sigma_{11},后者涉及原后q个随机变量,协方差矩阵为\Sigma_{22}-\Sigma_{12}^T\Sigma_{11}^{-1}\Sigma_{12},期待值则和前p个随机变量的取值纠缠在一起。将后者积分掉之后,得到的便是前p个随机变量的边缘分布密度函数。如果所关心的p个随机变量的序号并非1\simp,则只需重新排序并对原协方差矩阵\widetilde{\Sigma}做相应的行列变换,将新得到的协方差矩阵作为\Sigma来进行如上操作。

综上,n元高斯分布N\left ( \boldsymbol{\mu}, \Sigma\right )前p个随机变量服从分布N\left(\boldsymbol\mu_1,\Sigma_{11}\right),其中\boldsymbol{\mu}_1=\left ( \mu_1\ \mu_2\ \cdots\ \mu_p \right )^T

多元高斯分布的条件分布

根据(3)式,我们知道(10)等式右边的第二项代表条件分布,即当\boldsymbol{X}_1=(X_1,X_2,\cdots,X_p)^T=(x_1,x_2,\cdots,x_p)^T时,\boldsymbol{X}_2=(X_{p+1},X_{p+2},\cdots,X_n)^T所服从分布的密度函数为

p_{\boldsymbol{X}_2|\boldsymbol{X}_1}(\boldsymbol{x}_2|\boldsymbol{x}_1)\\=\frac{1}{\sqrt{(2\pi)^{n-p}\left| \Sigma/\Sigma_{11}\right|}}\exp\left[-\frac{1}{2}\left(\boldsymbol{x}_2-\boldsymbol{\mu}_2-\Sigma_{12}^T\Sigma_{11}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})_1 \right )^T\left(\Sigma/\Sigma_{11} \right )^{-1}\left(\boldsymbol{x}_2-\boldsymbol{\mu}_2-\Sigma_{12}^{T}\Sigma_{11}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})_1 \right )\right ]                

\boldsymbol{X}_2|\boldsymbol{X}_1\sim N\left(\boldsymbol{\mu_2}+\Sigma_{12}^{T}\Sigma_{11}^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu} \right )_1,\Sigma_{22}-\Sigma_{12}^T\Sigma_{11}^{-1}\Sigma_{12} \right )

 

 

 

 

 

 

参考资料:

边缘分布   https://en.wikipedia.org/wiki/Marginal_distribution

条件分布   https://en.wikipedia.org/wiki/Conditional_distribution

Schur补   https://en.wikipedia.org/wiki/Schur_complement

你可能感兴趣的:(CS229《机器学习》笔记 | 多元高斯分布的边缘分布和条件分布)