先验概率和后验概率_贝叶斯方法理解(1)— 从先验到后验

先验概率和后验概率_贝叶斯方法理解(1)— 从先验到后验_第1张图片

这一学期学了贝叶斯统计,因此想在这里结合上课内容和个人的理解做一个总结。我将把所有内容拆分为几个部分分别展开,如有问题,还请大家不吝赐教。

第一篇主要聊一聊贝叶斯学派和频率学派的区别,以及一些贝叶斯方法最重要的概念,后验分布的计算。


引言

贝叶斯方法和频率学派方法的区别,能找的的比较多的解释是,“他们看待世界的方式不相同,获得了一组随机样本,频率学派认为总体的参数是不变的,样本是随机获取的;而贝叶斯学派认为总体参数是随机的,而获样本是不变的。”频率学派的观点很像柏拉图的实在论一样,因此大部分人举例的时候喜欢用上帝视角来解释(上帝才知道真实的均值)。如果总体参数固定,那么随机获得的样本就是理想实体的不完美映射。相应的,如果获得了这些样本(证据),利用极大似然法,推断出获得这些样本最有可能的参数。直观的反驳就是,如果刚好这些样本取自概率较小的值,比如中彩票了,那推断出来的参数不就有问题了吗?因此就解释结果而言,频率学派的概念比如置信区间,p值等都应该是‘long run conclusion’,也就是结论应该结合‘如果实验一直做下去’,比如,95%置信区间的含义是,如果做100次实验得出100个置信区间,那么有大约95个包含真实参数。

相比之下,贝叶斯学派不太关心正确的参数到底是多少,而是需要通过获取的数据加上先验知识得出后验概率进行统计推断。比如想推断学校的男女比例,随机抽样了10个人,其中2男8女,频率学派会得出男生占20%的结论,因为样本就是证据,有且仅有的证据。当然,如果样本量更大,那肯定更接近于真实值,但在现实生活中,有时候样本的获取成本非常高,或者因为各种原因无法获取。贝叶斯方法则会考虑先前经验,比如前几年的调查数据,或者专家知识(这是一所理工大学,男女比例1:9),这些都作为先验概率参与后验概率的计算。

似然函数

似然这个概念首先由Fisher(频率学派祖师爷)提出的,具体就不多说了。对于贝叶斯推断而言,似然函数可以看作是导工作。这里需要注意的是两条似然原则

  • 似然函数包含了所有从实验中获得的包含未知参数的证据。
  • 如果一个似然函数A与另一个似然函数B成比例,那么A和B包含关于未知参数θ的信息相同。

第二条非常重要,对于后来计算后验概率的理解有很大的帮助。下面举一个例子:

有两种类型的手术,第一种手术选取12个病人,其中有9个成功了(3个失败);第二种手术则采取不事先选定人数,而是一直选取病人做手术,直到3个病人失败为止,结果发现总共成功的人数为9个。那么两种情况的分布分别是:

  • 二项分布,似然函数为:
  • 负二项分布,似然函数为:

下图为两个似然函数,可以看出,两者成比例关系(从上式也可推出)。并且利用极大似然法,推断出来的参数是一致的,因此他们包含关于未知参数的信息相同。有意思的是,如果用频率学派的统计推断方法,在相同的零假设下(比如θ=0.5),得出的结论不一样(前者p值为0.073,后者为0.337)。

先验概率和后验概率_贝叶斯方法理解(1)— 从先验到后验_第2张图片
二项和负二项分布的似然函数

贝叶斯方法

一句话描述,贝叶斯方法就是利用你的先验知识,结合当前获得数据,来更新关于未知参数的信息,以此获得修订后的参数的可能性,也就是后验概率。后验概率的计算是整个贝叶斯推断的关键,接下来着重介绍后验概率的计算。

复习一下贝叶斯公式,具体就不展开讲了。

65d9d60503452ff102b5086a6c79b9f0.png

基于贝叶斯公式,对于连续的参数变量θ,后验概率密度 p(θ|y) 为,

8b7ee58dd8d93f35bcb792c204801641.png
后验概率密度公式
  • : 当前获得数据的似然函数
  • : 参数的先验概率
  • : 平均似然值,可以理解为在所有可能的θ下,获得该观测数据的期望。

可以看出,分母为一个常数,因此后验概率密度和分子

成比例关系。

接下来以二项分布作为例子来阐述后验概率获得的方法。首先,我们有两组不同实验数据,一组是比如去年做的,记为E0(100次试验成功8次);第二组数据是近期做的,记为E1(50次试验成功10次),想通过该数据分析未来风险。对于E0,我们可以认为是先验知识,似然函数为

,但是问题来了,公式需要一个有效的先验概率(积分为1),怎么将似然函数转化成了核心问题。于是,基于
似然原则第二条,我们只需要找到一个和该似然函数成比例的概率分布密度就行了,于是有了Beta分布。

f91a2efb88f7fd06bd9566106e8259cc.png

可以看出,公式的结构和二项分布一模一样,于是通过简单地参数转化,就可以获得Beta分布的参数和β值。结合本例的数据:

后来因为有了第二次试验E2的数据,我们也可以得出本次试验的似然函数。根据上文的后验概率密度公式,可以求出后验概率密度(需要通过积分的方法求出平均似然,过程略,但是需要注意,如果没法直接通过积分公式来计算的话,就需要数值方法来求积分,这就是后面会写到的MCMC)。于是,有了二项数据的后验概率密度:

0c7987919888b7211f766c918d9551fb.png

下图展示先验概率密度,后验概率密度,转化过后的似然函数(积分为1),可以看出后验概率介于先验概率和似然函数之间。

先验概率和后验概率_贝叶斯方法理解(1)— 从先验到后验_第3张图片

需要注意的是,如果没有早期的试验作为先验概率,只需要将先验概率密度设置为Beta(1,1)即可,该概率密度为 [0,1] 上的均匀分布

同样的,如果先验数据服从正态分布(方便起见,假设方差

已知),也可以根据似然函数以及比例关系求出相应的先验概率密度。结果是先验概率密度也服从正态分布,其参数满足:

*具体推导过程见文末附录,有兴趣的同学可以看看。

然后根据积分计算可以得到后验概率密度,依旧为正态分布,只是参数为先验概率密度参数以及本次实验的参数结合计算得出,具体不在赘述。

结论

贝叶斯方法的核心就是通过先验知识不断更新后验概率密度来分析参数的可能性分布,如果继续进行实验,之前的后验概率密度就变成了先验知识,这样最终就会越来越接近参数的真实分布。需要注意的是,一般来讲如果当前的样本量比先验知识的样本量大很多,那么先验知识就可以忽略不计。另外还有一种先验知识并不是基于早期试验,而是专家意见,比如像开始的例子,理工科学校男女比例1:9,这种情况下也可以将其转换为先验概率密度。


附录

先验概率和后验概率_贝叶斯方法理解(1)— 从先验到后验_第4张图片

你可能感兴趣的:(先验概率和后验概率)