最大似然估计、最大后验估计和贝叶斯估计的关系

        最大似然估计(MLE)

        原理:设X1, X2…Xn是取自总体X的一个样本,样本的联合密度(连续型)或联合概率密度(离散型)为f(X1, X2…Xn; Θ)。当给定样本X1, X2…Xn时,定义似然函数为L(Θ)= f(X1, X2…Xn; Θ)。

        L(Θ)看作参数Θ的函数,极大似然估计法就是用使L(Θ)达到最大值的去估计真实值Θ。L()=,称为Θ的极大似然估计(MLE)。

        最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。

        基本思想:在已经得到试验结果(即样本)的情况下,估计满足这个样本分布的参数,将使这个样本出现的概率最大的那个参数Θ作为真参数Θ的估计。在样本固定的情况下,样本出现的概率与参数Θ之间的函数,称为似然函数。

        一般步骤:

        (1)由总体分布推导出样本的联合概率函数(或联合密度);

        (2)将样本联合概率函数(或联合密度)中自变量看成一直常熟,把参数Θ看作自变量,得到似然函数L(Θ)。

        (3)求似然函数L(Θ)的最大值点。

        (4)计算过程中,为方便计算,常常先对似然函数取对数,再求导计算极大值点;若无法求导时,要用极大似然原则(即极大似然估计的定义:使L(Θ)最大)来求解。

 

        参考资料:

        http://www.docin.com/p-69209095.html

        http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html

        http://blog.csdn.net/yanqingan/article/details/6125812

        http://blog.chinaunix.net/uid-20761674-id-75037.html

 

 

        最大后验估计(MAP)

        最大后验估计是根据经验数据,获得对难以观察的量的点估计。与最大似然估计不同的是,最大后验估计融入了被估计量的先验分布,即模型参数本身的概率分布。

        估计过程中,需利用先验概率和贝叶斯定理得到后验概率,目标函数为后验概率的似然函数,求得该似然函数最大时的参数值,即MAP的目标结果(利用极大思想)。

        求解过程中,可用梯度下降等方法进行。

 

        参考资料:

        http://www.cnblogs.com/liliu/archive/2010/11/24/1886110.html

 

 

        贝叶斯估计

        MLE、MAP和贝叶斯估计都是参数估计的方法,也就是需要预先知道或假设样本的分布形式,只是一些参数未知。

        最大似然估计是最简单的形式,其假定参数虽然未知,但是为确定数值,就是找到使得样本的似然分布最大的参数。最大后验估计,和最大似然估计很相似,也是假定参数未知,但是为确定数值,只是目标函数为后验概率形式,多了一个先验概率项。

        而贝叶斯估计和二者最大的不同在于,假定把待估计的参数看成是符合某种先验概率分布的随机变量,而不是确定数值。在样本分布上,计算参数所有可能的情况,并通过计算参数的期望,得到后验概率密度。

        对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值。在贝叶斯估计中,一个典型的效果就是,每得到新的观测样本,都使得后验概率密度函数变得更加尖锐,使其在待估参数的真实值附近形成最大的尖峰。

 

        参考资料:

        http://blog.sina.com.cn/s/blog_6ae1839101012xur.html

        http://wenku.baidu.com/link?url=GtyqrI_1WGL4hzJRdN085V3r53EvZQITOXpXEWSAl5CFTP62-8eg-iup1J5wo-XfqKIBn1lDJYqzCc3zLQu8Sq474m5jl-9vX3QCZrV_udu

        http://blog.csdn.net/lzt1983/article/details/10131839

 

 

        附:

        贝叶斯定理,是描述随机事件A和B的条件概率和边缘概率之间关系的定理。

        

       其中,P(A|B)是指在B发生的情况下A发生的可能性。该公式是由P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)推导出来的。

       P(A)是A的先验概率或边缘概率,之所以称为“先验”是因为它不考虑任何B方面的影响,表示在训练数据前假设A拥有的初试概率。

       P(A|B)是已知B发生后A的条件概率,也由于得自B的取值,而被称作A的后验概率。

P(B|A)是已知A发生后B的条件概率,也由于得自A的取值,而被称作B的后验概率。

P(B)是B的先验概率或边缘概率,也作标准化常量(normalizing constant)。

       在更一般化的情况,假设{Ai}是事件集合里的部分集合,对于任意的Ai,贝叶斯定理可用下式表示:

         或

      

 

       参考资料:

       http://blog.csdn.net/kesalin/article/details/40370325

       http://blog.csdn.net/carson2005/article/details/6854005

你可能感兴趣的:(最大似然估计、最大后验估计和贝叶斯估计的关系)