参数的贝叶斯估计

介绍
第一部分 参数方法——类密度模型参数估计
第二部分 监督学习——分类(基于似然的方法)
第三部分 监督学习——分类(基于判别式的方法)(参数方法——判别式参数估计)
第四部分 监督学习——回归
第五部分 监督学习——关联规则
第六部分 维度规约(特征的提取和组合)
第七部分 半参数方法
第八部分 非监督学习——聚类
第九部分 非参数方法——密度估计
第十部分 非参数方法——决策树实现的判别式
第十一部分 多层感知器——非参数估计器
第十二部分 局部模型
第十三部分 支持向量机与核机器
第十四部分 隐马尔科夫模型
第十五部分 参数的贝叶斯估计
第十六部分 集成学习——组合多学习器
第十七部分 增强学习
第十八部分 机器学习实验
第十九部分 特征工程与数据预处理

在贝叶斯方法中,把参数看做具有某种概率分布的随机变量,对参数的这种不确定性建模。
在极大似然估计中,把参数看做未知常数,取最大化似然的参数为估计值。但在使用小样本时,极大似然估计可能是很差的估计,在不同的训练集上求得的参数相差较大,具有较大方差。
在贝叶斯估计中,利用估计具有不确定这一事实,不是估计单个,而是通过估计分布,加权使用所有的。也就是分摊估计的不确定性。

在估计时,可以利用我们可能具有的关于参数值的先验信息。尤其在使用小样本时,先验信息很重。使用贝叶斯规则,将先验与似然结合在一起,来计算后验。
这样,给定样本X,能够用它估计新实例的概率分布:
p(x^{\prime}|X)=\frac{p(x^{\prime},X)}{p(X)} =\frac{\int p(x^{\prime},X,\theta)\mathrm{d}\theta}{p(X)} =\frac{\int p(\theta)p(X|\theta)p(x^{\prime}|\theta)\mathrm{d}\theta}{p(X)} =\int p(x^{\prime}|\theta)p(\theta|X)\mathrm{d}\theta
如果是离散值,则用取代积分,后验则为样本X下每个的可能性。

这与《参数方法——类密度模型参数的估计》中介绍的贝叶斯估计不同,没有先估计确定的,而是对所有可能的后验进行了积分,是全贝叶斯方法

但大多数情况下这个积分很难计算的,除非后验有很好的形式(所以《参数方法——类密度模型参数的估计》中的方法,将参数归结到一点,不去计算这个积分)。

但贝叶斯估计还是有其独有的优点。首先先验帮助忽略了不太可能的值。此外,不是在预测时使用单个,而是生成可能的值集合,并在预测时全部使用,用可能性加权。
而最大后验(MAP)方法使用先验,则只利用了第一个优点。而对于极大似然(ML)方法,这两个优点都不具备。

对于很多无法计算的情况,通过近似计算来处理,包括马尔科夫链蒙特卡洛抽样,拉普拉斯近似、变分近似。


对离散分布的参数的贝叶斯估计

  1. 两类K=2
    样本服从伯努利分布,假定q 为样本为1 的概率。样本似然为
    需要对伯努利分布的参数 q 进行估计。采用贝塔分布描述参数的先验。其中,是先验分布的参数,称作超参数。是伽马函数,定义为。
    这样给定了先验和似然,可以得到参数的后验

    其中,N 是样本总量。可以看到先验和后验具有相同的的形式,称这样的先验为共轭先验
    通过后验,可以对超参数,做出这样的解释。A是N个样本中为1 的次数,可以看做在假想的个样本中出现1 的次数。后验结合了实际样本和假想样本。当时,有均匀的先验,并且后验和似然有相同的形状。随着两数的增大,及它们之差的增加,根据伽马分布,整个后验具有更小方差的分布。

  2. 多类K>2
    对多类情况,样本服从多项式分布,记表示实例属于类,并且对。多项式分布的参数为,满足,。
    样本似然是。
    对q的先验的描述是狄利克雷分布
    其中是先验的参数,。同样到处后验有

    其中。同样,后验和先验有同样的形式,都是的幂的乘积形式。并且同样地看到,后验组合了实际样本和假想样本。

对高斯分布的参数的贝叶斯估计

一元高斯分布的参数估计

考虑样本来自一元高斯分布,,分布的参数,是需要估计的。样本似然是

  1. 未知均值,已知方差的情况下。均值的共轭先验是高斯的,,后验是
    其中,。是样本均值。
    可以看到,后验均值是先验均值和样本均值的加权和。当样本规模N或先验的方差大时,后验的均值越接近样本均值 m ,后验更多地依赖样本提供的信息。而当较小时,即当的先验的不确定性较小时,先验具有更大的影响。
    方差方面,当先验方差更小,或样本量N更大时,后验方差更小。
    通过在后验(在)上积分,得到 x 的分布

  2. 对于方差为未知的情况,为了推导的方便,使用精度,方差的倒数来描述方差。重写样本似然有
    参数的共轭先验是伽马分布

    其中,其中是方差的先验估计,是先验的影响程度,类似于假想样本的大小。
    后验也是伽马分布,其中

    是样本方差。
    于已知方差的情况一样,后验的估计是先验和样本统计量的加权和

  3. 均值和方差均未知时,需要联合后验(仍用的形式来反应方差)。其中,方差先验,均值先验。也可以看做假想样本的大小,反应的影响程度。
    这种情况下的联合共轭先验称为正态-伽马分布

    后验是
    其中,,,
    在后验上积分,得到对x的概率分布估计:

    是一个具有给定均值和方差的、自由度为的分布。

多元高斯分布的参数估计

对多元变量样本,与一元样本的方法相同,只是使用了多元高斯分布。其中是精度矩阵
对于均值,使用多元高斯先验
对于精度矩阵,使用多元版本的伽马分布(又称Wishart分布)先验。


对函数参数的贝叶斯估计

同上面概率分布的参数一样,对函数参数的估计,同样将参数看做具有一种先验分布的随机变量。使用贝叶斯规则计算后验,再求积分。

回归函数

考虑线性回归模型,其中,是噪声的精度。
模型的参数是权重,记样本为,其中,。将样本记为输入矩阵和期望输出向量两部分。
给定输入的输出有概率分布

贝叶斯估计的情况下,为参数定义一个高斯先验。对于后验,可得到。
其中,。
为了得到新输入的输出。

如果采用最大后验估计对参数做点估计,由于后验为高斯分布,则有

MAP等同于最大化后验的对数
\begin{align} \log p(\boldsymbol{\omega}|\mathbf{X},\mathbf{r})\propto & \ \log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega})+\log p(\boldsymbol{\omega})\\ =&-\frac{\beta}2\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2-\frac{\alpha}2\boldsymbol{\omega}^T\boldsymbol{\omega}+c \end{align} \tag{b}

而同样作为点估计的极大似然估计,并没有利用先验信息。整体样本的对数似然为,其中第二项相对于参数是常数。
把似然的第一项展开成
\begin{align} \log p(\mathbf{r}|\mathbf{X},\boldsymbol{\omega},\beta)=&\log \prod_tp(r^t|\mathbf{x}^t,\boldsymbol{\omega},\beta) \\ =&-N\log(\sqrt{2\pi})+N\log\sqrt{\beta}-\frac{\beta}2\sum_t(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2 \end{align}
最大似然估计要最大化对数似然,等价于最小化最后一项,即最小化误差的平方和的参数。误差平方和为E=\sum_{t=1}^N(r^t-\boldsymbol{\omega}^T\mathbf{x}^t)^2=(\mathbf{r}-\mathbf{X}\boldsymbol{\omega})^T(\mathbf{r}-\mathbf{X}\boldsymbol{\omega})=\mathbf{r}^T\mathbf{r}-2\boldsymbol{\omega}^T\mathbf{X}^T\mathbf{r}+\boldsymbol{\omega}^T\mathbf{X}^T\mathbf{X}\boldsymbol{\omega}
关于求导并令其等于零,可得到



对于一般模型,不便于像线性模型一样求解最大似然和最大后验估计。但思想是类似地,一样可通过最小化误差平方和求得最小二乘估计子,来计算输入的输出。
或采用最大后验作为参数估计,由(b)的形式可写出一个适用于一般函数的增广误差函数

该目标函数比误差平方和多了一项,在统计学中称之为岭回归。是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,使更为符合实际、更可靠的回归方法。对病态数据的拟合要强于最小二乘法。(对于线性模型来说,则避免(c)中矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大。正如MAP的解(a)比ML的解(c)在对角线增加了阐述想,保证矩阵可逆。)

在《多层感知器》一节中的网络规模部分介绍的权重衰减(a),也有岭回归的形式,由第二项给每个一个靠近0的趋势。它们的目的都是降低模型复杂度,是正则化方法。

尽管岭回归的方法减少,但并不强制单个为0。即它不能用于特征选择,不能用于确定哪些是冗余的。为此可使用范数的拉普拉斯先验
,而不是范数的高斯先验。
对应的后验不再是高斯的,MAP估计通过最小化下式得到:

其中是噪声方差。这种方法做lasso(最小绝对值收缩和选择算子)回归


具有噪声精度先验的回归——MCMC抽样

前一部分假设噪声服从给定的正态分布,。如果也是未知的,那么也可以对它定义先验。同前文对高斯分布参数的贝叶斯估计一样,对精度定义伽马先验,
进一步定义基于的先验。
如果,,则如前一部分所讨论的。
参数和的共轭先验为正态-伽马先验:

可得后验

其中


这里采用马尔科夫链蒙特卡洛抽样(MCMC)来得到贝叶斯拟合。首先从中抽取一个值,然后从抽取。
这样得到一个从后验中抽样的模型,通过抽取多个模型,并取这些模型的平均,作为全贝叶斯积分的近似


基函数或核函数的使用

对给定输入,使用参数的MAP估计(a)来计算输出

这是对偶表示,其中包含先验参数。如果像用支持向量机那样用训练数据表示参数,可以把预测输出写成输入和悬链数据的函数,我们可以把这表示为。
其中

考虑到可以使用非线性基函数映射到新空间,在新空间中拟合线性模型(《核机器》)。这种情况下,作为线性核(d)的推广,其中的 d 维变为 k 维的。
\begin{align} r^{\prime}=&\phi(\mathbf{x}^{\prime})^T\boldsymbol{\omega}\\ =&\sum_t\beta\phi(\mathbf{x}^{\prime})^T\boldsymbol{\Sigma}_N^{\phi}\phi(\mathbf{x}^t)r^t\\ =&\sum_tK(\mathbf{x}^{\prime},\mathbf{x}^t)r^t \end{align}
其中,,,是映射后的数据矩阵。这是的空间中的对偶表示。

贝叶斯分类

在《监督学习——分类(基于判别式的方法)》中介绍的逻辑斯蒂判别式,对两类问题,假定线性可分,有。伯努利样本的对数似然为。通过最大似然估计得到参数的估计。
在贝叶斯方法中,假定参数的高斯先验,而后验的对数为
\begin{align} \log p(\boldsymbol{\omega}|\mathbf{r},\mathbf{X})\propto & \ \log p(\boldsymbol{\omega})+\log p(\mathbf{r}|\boldsymbol{\omega},\mathbf{X}) \\ =&-\frac12(\boldsymbol{\omega}-\mathbf{m}_0)^T\mathbf{S}_0^{-1}(\boldsymbol{\omega}-\mathbf{m}_0 )+\sum_t r^t \log y_t+(1-r^t)\log (1-y^t)+c \end{align}
这个后验分布不再是高斯分布,并且不能精确地积分。这里使用拉普拉斯近似

  • 拉普拉斯近似
    对某个分布,首先找出的众数,在拉普拉斯近似使用高斯函数来近似它,其中均值中心为,方差由均值附近的的曲率给定。
    为了得到高斯的方差,考虑在处的泰勒展开式
    其中
    泰勒展开式的一阶线性项为0,因为在众数处的导数为0。
    忽略高阶项,由对数取指数,得到。从指数部分可知方差为。令由均值为。
    得到的高斯估计。


    在多元情况下,,类似地有

    其中是二阶导数的矩阵
    拉普拉斯近似为

这样,根据多元情况的拉普拉斯近似,可估计类概率为,其中是对后验的拉普拉斯近似。


模型的比较——贝叶斯方法

对给定数据集,可以用不同的模型去拟合它,每个模型有其各自的参数。以不同次数的多项式模型为例,不同的多项式对数据的拟合情况是不同的,存在过拟合和欠拟合的平衡问题。
本节对模型假设先验,来对不同的模型进行比较。

对给定数据X(N个实例),给定模型和参数,数据的似然是,那么在所有上取平均,得到贝叶斯边缘似然(又称模型证据
其中是模型 M 的参数先验假设
可以计算模型的后验。其中是模型的先验假设

下面介绍如何利用模型的后验来选择模型。
对任意模型M,对来自M的所有可能的包含N个实例的数据集,有。
因为对复杂模型而言,它的泛化能力强于简单模型,其能拟合的数据集也就明显多于简单模型。也就是说,对给定的数据,复杂模型的会较小。
如果有两个模型和,则可以比较它们的后验

其中两个边缘似然的比称作贝叶斯因子。如果两个模型的先验相等,则可直接通过贝叶斯因子选择后验较大的模型。

在贝叶斯方法中,也可不做模型选择,而是像参数的贝叶斯估计一样,平均各个模型的预测。用贝叶斯边缘似然加权,求得所有模型输出的加权和。

你可能感兴趣的:(参数的贝叶斯估计)