先验概率、后验概率、极大似然估计

先验概率

      先验概率(prior probability)是指根据以往经验和分析得到的概率。例如投硬币事件,我们在执行这个事件之前就已经了解其符合二项分布,然后直接根据二项分布分析出的概率被称作是先验概率。它往往作为"由因求果"问题中的"因"出现的概率。

      在贝叶斯统计推断中,不确定数量的先验概率分布是在考虑一些因素之前表达对这一数量的置信程度的概率分布。例如,先验概率分布可能代表在将来的选举中投票给特定政治家的选民相对比例的概率分布。未知的数量可以是模型的参数或者是潜在变量。

 后验概率

      后验概率是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的"果"。是在相关证据或者背景给定并纳入考虑之后的条件概率。

      后验概率是关于参数 θ 在给定的证据信息 X 下的概率: p(θ|x) 。

 

举例说明先验概率与后验概率

假设我们出门堵车的可能因素有两个(就是假设而已,别当真):车辆太多和交通事故。

  • 依照先前经验得到的堵车的概率就是先验概率 。
  • 如果我们已经出了门,然后遇到了堵车,那么我们想算一下堵车时由交通事故引起的概率有多大,那这个就叫做后验概率 (也是条件概率,但是通常习惯这么说) 。也就是P(交通事故|堵车)。这是有果求因。

 

先验概率与后验概率的联系与区别

  • 先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础
  • 事情还没有发生,要求这件事情发生的可能性的大小,是先验概率。事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率。

 

极大似然估计

假设有一枚硬币,我们想确定这枚硬币是否质地均匀。即想知道抛这枚硬币,正反面出现的概率各是多少?于是我们将这枚硬币抛了10次,得到的数据x0是:反正正正正反正正正反。我们想求的正面概率θ是模型参数,而抛硬币模型可以假设服从二项分布。

那么,出现实验结果x0(反正正正正反正正正反)的似然函数是多少呢? 

而极大似然估计,顾名思义,就是要最大化这个函数。

我们可以画出f(θ)的图像:

                                   

从图像中可以观察到,θ=0.7时,函数取值最大。也就是说,我们通过最大化似然函数后,得到了模型参数的值,相应的,正反面出现的概率也就求出了。  

极大似然估计需要保证所有的采样都是独立同分布的。

 

首先要明确的是极大似然估计最大似然估计(Maximum likelihood estimation,MLE)是相同的概念,不同的说法。

其次:

对于极大似然估计或者最大似然估计来说,都是指的是参数的一种估计方法。对上面这例子来讲,一般都称作是极大似然概率,因为它求的是函数的一个极大值作为参数。但是有的时候极大值与最大值是同一个值,所以我们有时候也称之为是最大似然估计。

另外一种说法就是:

极大值似然估计,它是对是无穷多个,可选择的范围里面选择一个最大的或者是极大的值。类似于上述的例子它是在取值范围里面去选择,令这个函数取值最大的或者是最极大的,而在给定的区间范围内有无穷多个点来求极大值,所以称作极大值似然估计。

最大似然估计,它是有限多个可能的选择里面选择其中的一个最大的或者是极大的值。下面举个例子来解释这种说法。

      我们举个栗子解释最大似然估计

      假设头痛是由比如感冒,中风,脑溢血...等等原因引起的。那么医生是如何判断病人的感冒是由哪一种原因引起的呢?

其实医生在大脑中计算了:

P(感冒|头痛)(头痛由感冒引起的概率,下面类似)

P(中风|头痛)

P(脑溢血|头痛)

...

然后得出哪一种情况概率是最大的,就判断是由其引起的头痛。这个就叫最大似然估计(Maximum likelihood estimation,MLE) 。

 

最大后验概率  

与极大似然估计相比,使用最大后验概率估计θ时,首先认为θ本身存在一个分布,即θ有先验分布。还是以判断一枚硬币是否质地均匀为例。假设正面概率θ满足均值为0.5,方差为1的先验分布,即:

                                                                              

那么,将这枚硬币抛了10次,得到的数据x0是:反正正正正反正正正反。

因为考虑了先验分布,所以实验结果x0的函数可以表示为:

                                       

                                           

因此,我们可以通过最大化这个后验概率函数求得θ,我们可以画出f(θ)的图像:

                                        

计算得到θ = 0.696。也就是说,采用最大后验概率计算得到硬币正面朝上的概率为0.696。

 

最大后验概率函数一般构造:

                                 

 对于f(x|θ),实际上类似于在最大似然估计里面那个似然函数;而g(θ),它则是θ的先验分布。通常情况下,我们可以把它看成一个连续型随机变量,那样的话,它的先验分布就是一个密度函数。

 

似然与概率的区别

  • 概率: 如果我有一枚质地均匀的硬币,那么它出现正面朝上的概率是0.5。
  • 似然: 如果我抛一枚硬币100次,正面朝上52次,那么它十有八九是质地均匀的。

实际上,似然几乎可以等价于置信度。

 

你可能感兴趣的:(先验概率与后验概率,深度学习,人工智能)