2.3.6 ⾼斯分布的贝叶斯推断

2.3.4, 2.3.5 高斯分布的最大似然估计给出了对于参数和的点估计,这里我们引入这些参数的先验分布,来介绍一种贝叶斯方法。


首先我们假设方差已知,要从一组次观察中推断均值,考虑似然函数,在给定的情况下,观测的数据集出现的概率,可以看成是的函数,有

似然函数与有关的只有指数上的关于的二次型,所以我们可以将先验分布选成高斯分布,因为高斯分布与有关的也只有指数上的关于的二次型,他是似然函数的一个共轭分布,而后验概率是两个µ的⼆次函数的指数的成绩,因此也是⼀个⾼斯分布。我们令先验分布为

后验概率为

通过计算不难得到

对含和的项进行计算,可证
p(\mu|x)= N(\mu|\mu_N,\sigma_N^2)\\ 其中\\ \mu_N = \frac{\sigma^2}{N\sigma_0^2+\sigma^2}\mu_0+\frac{N\sigma_0^2}{N\sigma_0^2+\sigma^2}\mu_{ML}\\ \frac{1}{\sigma_N^2}=\frac{1}{\sigma_0^2}+\frac{N}{\sigma^2}\\ \mu_{ML}=\frac{1}{N}\sum_{n=1}^Nx_n
说明:

  1. 公式给出的后验分布的均值是先验均值和最⼤似然解的折中,如果观测数据点的数量,公式就变成了先验均值。对于,后验均值由最⼤似然解给出。
  2. ⽅差的倒数被称为精度,精度可以相加,因此后验概率的精度等于先验的精度加上每⼀个观测数据点所贡献的⼀个精度,如果观测数据点的数量,公式就变成了先验的⽅差。对于,⽅差趋于零,从⽽后验分布在在最⼤似然解附近变成了⽆限⼤的尖峰。

这是一个顺序估计的框架,当观察到第个数据点时,会根据两个量:观察到第个数据点时候的均值和数据点的值,先验分布是时候的分布,后验分布公式如下

方括号的项是观测到个数据点之后的后验概率分布,也可以看做是先验分布,数据点的贡献被单独了写出来。


上面我们假定方差已知来估计均值
下面我们假定均值已知来估计方差
同前面一样我们先来找先验分布的共轭形式,下面会用精度来代替,考察的似然函数

共轭分布应该正比如的幂指数,和的线性函数的指数,来看Gamma分布的定义

保证了公式能够被正确归一化,很明显Gamma分布就是的似然函数的共轭分布,Gamma分布的均值和方差为


考虑一个先验分布
,我们乘以高斯分布方差的似然函数,就得到了后验分布

我们可以把它看成形式为
的Gamma分布

不使⽤精度进⾏计算,⽽考虑⽅差本⾝。这种情况下共轭先验被称为逆Gamma分布。


上面我们 假定方差已知来估计均值 和 假定均值已知来估计方差(精度)
下面我们假定均值和精度都是未知的

先找共轭分布,现在要考虑和两个变量了
p(x|\mu,\lambda)=\prod_{n=1}^N(\frac{\lambda}{2\pi})^{\frac{1}{2}}\exp\{-\frac{\lambda}{2}(x_n-\mu)^2 \} \\\propto[\lambda^{\frac{1}{2}}\exp(-\frac{\lambda\mu_2}{2})]^N\exp\{\lambda\mu\sum_{n=1}^Nx_n-\frac{\lambda}{2}\sum_{n=1}^Nx_n^2\}
目标是找一个先验分布,对于和与似然函数有着相同的函数形式。我们假设
p(\mu,\lambda) = [\lambda^{\frac{1}{2}}\exp(-\frac{\lambda\mu^2}{2})]^N\exp\{c\lambda\mu-d\mu\}\\=\exp\{-\frac{\beta\lambda}{2}(\mu-\frac{c}{\beta})^2\}\lambda^{\frac{\beta}{2}}\exp\{-(d-\frac{c^2}{2\beta})\lambda\}
其 中和都是常数。由于我们总有,因此我们可以通过观察找到和。特别地,我们看到是⼀个⾼斯分布,这个⾼斯分布的精度是的⼀个线性函数。是⼀个Gamma分布,因此归⼀化的先验概率的形式为

以上的概率分布公式被称为正态-Gamma分布或者⾼斯-Gamma分布,如下图。
注意这不是一个独立的的高斯分布和一个的Gamma分布的简单乘积,因为的精度是的线性函数。


接下来是对于D维向量x的多元⾼斯分布的讨论

  1. 假设精度矩阵已知,均值的共轭先验分布依然是高斯分布
  2. 假设均值已知,精度矩阵的共轭先验分布是Wishart分布,定义如下
  3. 假设均值和精度矩阵都是未知的,类似于⼀元变量的推理⽅法,共轭先验为:


你可能感兴趣的:(2.3.6 ⾼斯分布的贝叶斯推断)