PRML3.4贝叶斯模型比较

3.4 贝叶斯模型比较

模型比较的贝叶斯观点涉及到使用概率表示模型选择的不确定性,和使用概率的加和、乘积规则。
现在讲解几个概念:
假设项比较L个模型,在多项式拟合时,概率分布被定义在目标t上,而输入值X被认为是已知的,其他类型的模型定义了X和t上的联合分布。假设数据由这些模型中的一个生成,不确定性通过先验概率分布表示p(Mi)。

后验分布

现在给定一个训练数据集D,估计出后验分布:
这里写图片描述

先验分布

其中的先验分布表达出不同模型之间的优先级。此时我们假设所有模型的都拥有相同的先验概率。上式中的模型证据p(D|Mi),表达了数据展现出的不同模型的优先级,同时也被称作边缘似然函数(marginal likelihood),因为可以被看作模型空间中的似然函数,在模型空间中参数已经被求和或者积分。两个模型的边缘似然函数的比值被称为贝叶斯因子。

预测分布

根据概率的加和规则和乘机规则,预测分布为:
这里写图片描述
预测分布的获取方式:对各个模型的预测分布求加权平均,权值为这些模型的后验概率p(Mi|D)。

模型选择

模型选择:对于模型求平均的一个简单的近似是使用最可能的一个模型自己做预测。


对于一个由参数w控制的模型,根据概率的加和和乘积规则,模型证据:
这里写图片描述
从取样的角度来看,边缘似然函数被看做从一个模型中生成数据集D的概率,这个模型的参数是从先验分布中随机取样的。
PRML这一节中还提到模型证据恰好是在估计参数的后验分布时出现在贝叶斯定理的分母中的归一化项,因为:
这里写图片描述


文章提到对参数积分进行一个简单的近似:首先考虑到模型有一个参数w,w的后验概率正比于p(D|w)p(w)。其中假设后验分布在最大似然值Wmap腹肌是一个尖峰,宽度为δw(后验),就可以用被积函数的值乘以尖峰的宽度近似看作积分。如果进一步假设先验分布是平的,宽度为δw(先验),p(w)=1/δw(先验),就可以得到:
PRML3.4贝叶斯模型比较_第1张图片
现在画出上市的图像:
PRML3.4贝叶斯模型比较_第2张图片
第一项表示拟合由最可能参数给出的数据;第二项用于根据模型的复杂度来惩罚模型。由于δw(先验)>δw(后验),所以这一项为负,并随着后验/先验减小,其绝对值会增加。


对于一个由M个参数的模型,对每一个参数进行类似的近似。假设所有参数的δw(先验)>δw(后验)都相同,我们有:
这里写图片描述
因此咋这种简单的近似下,复杂度惩罚项的大小随着模型中可调节参数M的数量线性增加。随着模型复杂度增加,第一项会增大,因为一个更加复杂的模型能够很好拟合数据,而第二项会减小,因为其依赖于M。由最大模型证据确定的最优的模型复杂度需要在两项中竞争中折中。
PRML3.4贝叶斯模型比较_第3张图片
现在解释上图:
根据上图所示,横轴是可能的数据集构成的空间的一个一维表示,因此轴上每个点都对应着一个具体的数据集。如图所示,考虑三个模型M1,M2,M3,复杂度依次增加。假设这个模型自动生产样本数据集,然后观察生成的数据集的分布。任意给定的模型都能够生成一系列不同的数据集,因为模型的参数由先验概率分布控制,对于任意一种参数的选择,在目标变量上都可能由随机的噪声。为了从具体的模型中生成一个特定的数据集,首先从先验分布p(w)中选择参数的值,然后对这些参数的 值,按照概率p(D|w)对数据进行采样。一个简单的模型几乎没有变化性,因此生成的数据集之间十分相似。于是他的分布p(D)就被限制在横轴的一个相对小的区域内。相反,一个复杂的模型,可以生成变化性相当大的数据集,因此它的分布p(D)遍布了数据集空间的一个相当大的区域。由于概率分布p(D|Mi)是归一化的,特定的数据集D0对中等复杂度的模型有最高的模型证据。


现在讨论贝叶斯模型比较框架,其中有个假设:生成数据的真实的概率分布包含在考虑的模型集合当中。如果这个假设成立,可以证明:平均来看,贝叶斯模型比较会倾向选择出正确的模型。例如,两个模型,M1,M2,其中真实的概率分布对应于M1。对于给定的有限数据集,确实有可能出现错误的模型反而使贝叶斯因子较大的事情。但是如果把贝叶斯因子在数据集上进行平均,就可以得到期望贝叶斯因子:
这里写图片描述
贝叶斯框架避免了过拟合问题,并且使得模型能够基于训练数据自身进行对比。贝叶斯方法与其他方法无异的地方是,需要对模型的形式做出假设,并且如果这些假设不合理,结果则会出错。
如果先验分布是反常,那么模型证据无法定义,因为反常的先验分布有任意的缩放因子。如果考虑一个正常的先验分布,然后去一个适当的极限来获得一个反常先验,那模型证据就会趋于零。

你可能感兴趣的:(机器学习,PRML,ML)