最大似然估计MLE
首先,看一下似然函数的定义。
1 Introduction
The principle of maximum likelihood is relatively straightforward. As before, we begin with a sample X = (X1,...,Xn) of random variables chosen according to one of a family of probabilities Pθ. In addition, f(x|θ), x = (x1,...,xn) will be used to denote the density function for the data when θ is the true state of nature. Then, the principle of maximum likelihood yields a choice of the estimator ˆ θ as the value for the parameter that makes the observed data most probable. Definition1. The likelihood function is the density function regarded as a function of θ.
L(θ|x) = f(x|θ), θ ∈Θ. (1)
The maximumlikelihoodestimator(MLE),
ˆ θ(x) = argmax θ L(θ|x).
(2) We will learn that especially for large samples, the maximum likelihood estimators have many desirable properties. However, especially for high dimensional data, the likelihood can have many local maxima. Thus, finding the global maximum can be a major computational challenge. This class of estimators has an important property. If ˆ θ(x) is a maximum likelihood estimate for θ, then g(ˆ θ(x)) is a maximum likelihood estimate for g(θ). For example, if θ is a parameter for the variance and ˆ θ is the maximum likelihood estimator, then pˆ θ is the maximum likelihood estimator for the standard deviation. This flexibility in estimation criterion seen here is not available in the case of unbiased estimators. Typically, maximizing the score function, ln L(θ|x), the logarithm of the likelihood, will be easier. Having the parameter values be the variable of interest is somewhat unusual, so we will next look at several examples of the likelihood function.
也就是说:
1, 似然函数 L(sita|x) 也是一个概率函数;
2,似然函数描述的是在已知一种模型下,针对某个参数,观察到了一种抽样结果(或者说有了一种观察到的结果)的概率函数 【即:特定分布模型下,观察值x在给定某参数sita下的条件概率函数)
3,求最大似然估计,就是去求参数sita应该取什么值的时候能够让如上所说的条件概率最大,也就是这种观察发生的概率最大。
举例如下(别人博客的例子):
假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。我 们想知道罐中白球和黑球的比例,但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来,记录球的颜色,然后把拿出来的球 再放回罐中。这个过程可以重复,我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中,有七十次是白球,请问罐中白球所占的比例最有可能是多少?很多人马上就有答案了:70%。而其后的理论支撑是什么呢?
我们假设罐中白球的比例是p,那么黑球的比例就是1-p。因为每抽一个球出来,在记录颜色之后,我们把抽出的球放回了罐中并摇匀,所以每次抽出来的球的颜 色服从同一独立分布。这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中,七十次是白球的概率是P(Data | M),这里Data是所有的数据,M是所给出的模型,表示每次抽出来的球是白色的概率为p。如果第一抽样的结果记为x1,第二抽样的结果记为x2...那么Data = (x1,x2,…,x100)。这样,
P(Data | M)
= P(x1,x2,…,x100|M)
= P(x1|M)P(x2|M)…P(x100|M)
= p^70(1-p)^30.
那么p在取什么值的时候,P(Data |M)的值最大呢?将p^70(1-p)^30对p求导,并其等于零。
70p^69(1-p)^30-p^70*30(1-p)^29=0。
解方程可以得到p=0.7。
在边界点p=0,1,P(Data|M)=0。所以当p=0.7时,P(Data|M)的值最大。这和我们常识中按抽样中的比例来计算的结果是一样的。
求取最大似然估计的方法也有很多,一般的方法步骤如下:
(1) 写出似然函数;
(2) 对似然函数取对数,并整理;
(3) 求导数 ;
(4) 解似然方程
注意:最大似然估计只考虑某个模型能产生某个给定观察序列的概率。而未考虑该模型本身的概率。
最大后验概率MAP
最大后验估计是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中。故最大后验估计可以看做规则化的最大似然估计。
首先,我们回顾上面提到的最大似然估计,假设x为独立同分布的采样,θ为模型参数,f为我们所使用的模型。那么最大似然估计可以表示为:
现在,假设θ的先验分布为g。通过贝叶斯理论,对于θ的后验分布如下式所示:
最后验分布的目标为:
注:最大后验估计可以看做贝叶斯估计的一种特定形式。
最大后验概率:
1,也是概率函数。是在已知模型,已知关于某参数sita的先验知识(分布),以及基于该参数得到抽样或观察结果x的条件概率分布等条件下,描述在已经观察到某抽样或已经得到了某观察结果的条件下,该参数的分布概率情况;
2,考虑了特定模型的自身分布情况,也就是考虑了先验分布概率。
3,利用了贝叶斯定理,是贝叶斯公式最重要的实际应用之一。是通过已知的先验知识和观察到的实际结果,对知识进行更新的过程。
也举个别人博客的例子:
假设有五个袋子,各袋中都有无限量的饼干(樱桃口味或柠檬口味),已知五个袋子中两种口味的比例分别是
樱桃 100%
樱桃 75% + 柠檬 25%
樱桃 50% + 柠檬 50%
樱桃 25% + 柠檬 75%
柠檬 100%
如果只有如上所述条件,那问从同一个袋子中连续拿到2个柠檬饼干,那么这个袋子最有可能是上述五个的哪一个?
我们首先采用最大似然估计来解这个问题,写出似然函数。假设从袋子中能拿出柠檬饼干的概率为p(我们通过这个概率p来确定是从哪个袋子中拿出来的),则似然函数可以写作
由于p的取值是一个离散值,即上面描述中的0,25%,50%,75%,1。我们只需要评估一下这五个值哪个值使得似然函数最大即可,得到为袋子5。这里便是最大似然估计的结果。
上述最大似然估计有一个问题,就是没有考虑到模型本身的概率分布,下面我们扩展这个饼干的问题。
假设拿到袋子1或5的机率都是0.1,拿到2或4的机率都是0.2,拿到3的机率是0.4,那同样上述问题的答案呢?这个时候就变MAP了。我们根据公式
写出我们的MAP函数。
根据题意的描述可知,p的取值分别为0,25%,50%,75%,1,g的取值分别为0.1,0.2,0.4,0.2,0.1.分别计算出MAP函数的结果为:0,0.0125,0.125,0.28125,0.1.由上可知,通过MAP估计可得结果是从第四个袋子中取得的最高。
MLE 与 MAP:
相同点: 都是为了找到参数的某一个取值,这个取值使得得到目前观察结果的概率最大。(通过比较该参数不同取值下观察结果的条件概率)
不同点:MAP 考虑了模型的先验分布, 而MLE 假设模型是均匀分布。 可以说,MLE是MAP的一种特例。