贝叶斯估计与最大似然估计

极大似然估计
极大似然估计的基本想法是: 我们所看到的,就是最可能发生的
所以通过最大化实验数据发生的概率 P(x|θ)  (其中参数 θ  是未知的),取极值时对应的 θ ^   即为最大似然估计。
 
贝叶斯估计
P(θ|x)=P(x|θ)P(θ)  θ P(x|θ)P(θ)   
θ  表示一个事件发生的 概率,例如扔一个硬币的结果正面朝上的概率,这个 概率θ  是一个随机变量 P(θ)  θ  的先验分布,“先”表示在实验之前,先验是指获得数据之前对于事件发生概率 θ  的预估,实际上就是预先假定的 θ  的一个概率分布;
x  表示实验数据。
理解的关键在于把事件发生的概率θ  看作一个随机变量
不妨假设 θ  取值空间为 θ i ,1iN  ,其中  N i=1 θ i =1  ,将上面的公式写得更加容易理解一点如下:
P(θ=θ i |x)=P(x|θ=θ i )P(θ=θ i )  N i=1 P(x|θ=θ i )P(θ=θ i )  ,1iN 
在实验之后,利用实验数据对 θ  的概率分布进行校正,即得到 θ  的后验分布,然后求期望,最终得到贝叶斯估计
θ ^ = N i=1 θ i P(θ=θ i |x) 
一般地,对于连续随机变量 θ  θ  的贝叶斯估计为: θ ^ =θP(θ|x)dθ 
 
下面考虑一个简单的例子:
一枚硬币,抛掷出现正面的概率为 p,出现反面的概率为 1-p,但是参数 p 未知。
为了估计参数 p 的取值,进行 10 次随机试验,出现了 3 次正面, 7 次反面。
现在我们已经获取了实验数据,问题是如何才能通过实验数据估计出参数 p 呢?
 
极大似然估计
参数 θ  在该问题中指的是正面出现的概率p,实验数据指的是在10次实验中出现3次正面,7次反面。
如果实验中出现h次正面,t次反面,则该实验结果出现的频率为(假设正反面出现的次序确定):
P(x|θ)=p h (1p) t  
第二步,极大化上面的式子即可得到p的贝叶斯估计。由于极大化 P(x|θ)  等价于极大化 log[P(x|θ)]  ,所以可以通过求解 log[P(x|θ)]  的最大值简化求解过程
log[P(x|θ)]=hlog[p]tlog[1p] 
极值条件为
log[P(x|θ)] p  =0 
log[P(x|θ)] p  =h p  t 1p  =0 
求解上式可以得到
p ^ =h h+t   
这就是硬币正面出现概率的极大似然估计。将具体的实验结果代入以上公式计算这枚硬币出现的概率为 p=3/10。
    可能有人会想,为啥要搞的这么麻烦, p ^ =h h+t    是多么的直白明了,即使不使用极大似然的方法仍然能够写出 p ^ =h h+t    。对于硬币的问题,我们的确可以更快捷的凭借直觉给出参数 p 的估计,那是因为参数 p 有明确的含义,p 表示概率,我们很容易想到使用频率来估计概率。但是有的问题中参数 θ  没有明确的含义,我们就很难通过直觉来得到参数 θ  的估计量 θ  。简单来说我们的直觉能够在待估参数有明确含义的时候提供便捷,但是当待估参数没有明确含义的时候我们的直觉只能靠边站,事情交由极大似然估计来解决。
 
贝叶斯估计
下面我们考虑利用贝叶斯估计来解决这个问题。
    还是回到硬币的问题,我们通过极大似然估计得到硬币出现正面的概率是 3/10,但是生活经验告诉我们硬币正反面出现的概率相等都是 1/2。到底我们应该相信那个结果呢?一种好的方法就是将生活经验和实验数据两个因素综合在一起考虑,贝叶斯估计很好的做到了这一点。
    贝叶斯估计可以分为三个步骤来实现。第一步确定先验,第二步写出似然函数并计算后验,第三步根据后验计算贝叶斯估计。下面通过硬币的例子来说明贝叶斯估计的实现步骤。
第一步确定先验,我们使用的先验分布是 pBeta(α,beta)  Beta(α,β)  具体是这个样子
f(p;α,β)=Γ(α+β) Γ(α)Γ(β)  p α1 (1p) β1  
Beta(α,β)  的含义是实验之前已经进行了 α+β  次扔硬币的实验,出现了 α  次正面和 β  次反面。
第二步写出似然函数,并计算后验。
P(θ|x)P(x|θ)P(θ) 
P(x|θ)P(θ)=p h (1p) t Γ(α+β) Γ(α)Γ(β)  p α1 (1p) β1  
添加归一化系数(保证  θ P(x|θ)P(θ)=1  )之后可以得到
P(θ|x)=p h (1p) t Γ(α+β+h+t) Γ(α+h)Γ(β+t)  p α+h1 (1p) β+t1  
P(θ|x)Beta(α+h,β+t) 
故可得
p ^ =α+h α+β+h+t   
代入具体的数据, α=200,β=200,h=3,t=7  计算可得
p ^ =α+h α+β+h+t  =203 410  =0.495 
我们的先验知识对结果产生了很大的影响,不添加先验时极大似然估计的结果是 p=3/10,添加先验之后,较少的实验数据只对先验做出微小的调整,贝叶斯估计的结果是

你可能感兴趣的:(数学,数学)