极大似然估计 极大后验估计 贝叶斯估计 最小二乘法

    • 极大似然估计
    • 极大后验估计
    • 贝叶斯估计
    • 最小二乘法

1 极大似然估计

极大似然估计(Maximum Likelihood Estimation, MLE)/最大似然估计/最大概似估计 是一种参数估计方法,即已知样本估计出模型的参数。

一般说来,事件A发生的概率与某一未知参数 θ 有关, θ 取值不同,则事件A发生的概率 P(A|θ) 也不同,当我们在一次试验中事件A发生了,则认为此时的 θ 值应是参数t的一切可能取值中使 P(A|θ) 达到最大的那一个。极大似然估计法就是要选取这样的 θ 值作为参数t的估计值,使所选取的样本在被选的总体中出现的可能性为最大,即 P(A|θ) 最大。即认为模型的参数是确定的,只是不知道而已,所以可以通过样本推断出模型参数。

求极大似然函数估计值的一般步骤:
(1) 写出似然函数;
(2) 对似然函数取对数,并整理;
(3) 求导数;
(4) 解似然方程 。

(1)似然函数的定义为:
L(x1,x2,...,xN|θ1,θ2,...,θn)=L(x1,x2,...,xN|θ) =L(θ)=Ni=1p(xi|θ)
其中,N为样本个数。 可以看出,似然函数就是假设已知参数的情况下得到观察样本的概率,就是通过参数为 θ 的模型产生样本 (x1,x2,...,xN) 的概率。而MLE极大似然估计就是求使得 L(θ) 最大的 θ

极大似然估计法原理就是固定样本观测值 (x1,x2,...,xN) 挑选参数 θ 使
L(x1,...,xN|θ)=maxL(x1,...,xN|θ)
这样得到的 θ 与样本值有关, θ 称为参数 θ 的极大似然估计值。

(2)log似然函数的定义为:
l(θ)=logL(θ)
使用log似然有几点好处:它与似然函数 L(θ) 在同样的位置取得最大值;它可以将 L(θ) 中的乘法变成加法; L(θ) 中的系数变成 l(θ) 中的常数项,因为不影响取极大值的位置,都是可以省略的。简单来讲就是方便计算。接下来的问题就是计算出使 l(θ) 最大的 θ 了。

(3)用微分学知识转化为求解似然方程(对每个参数分别求偏导)
l(θ)θj=0,j=1,2,...,k

(4)解此方程并对解做进一步的判断。但由最值原理,如果最值存在,此方程组求得的驻点即为所求的最值点,就可以很到参数的极大似然估计。

2 极大后验估计

极大后验估计(Maximum A Posterior, MAP)
上述最大似然估计有一个问题,就是没有考虑到模型本身的概率分布。
极大似然估计是求使得 P(x|θ) 取最大值的 θ 值,而极大后验概率是求使得 P(x|θ)p(θ) ,即 P(θ|x) ,取最大值的 θ 值.
由贝叶斯定理: P(θ|x)=P(x|θ)P(θ)P(x)P(x|θ)P(θ)
最大似然估计可以理解为当先验概率 P(θ) 为均匀分布时的极大后验估计器。极大后验估计根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同是,最大后验估计融入了要估计量的先验分布在其中,可看做是规则化的最大似然估计。
极大似然估计: θMLE(x)=argmaxθp(x|θ)=argmaxθNi=1p(xi|θ)
极大后验估计: θMAP(x)=argmaxθp(θ|x)=argmaxθp(x|θ)p(θ)
=argmaxθNi=1p(xi|θ)p(θ)
注:最大后验估计可以看做贝叶斯估计的一种特定形式。
MAP函数的求解和MLE函数的求解方法相同,都是先取对数,然后通过微分求解。MAP与MLE最大区别是MAP中加入了模型参数本身的概率分布,或者说。MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。

3 贝叶斯估计

贝叶斯估计(Bayes Estimation)
MLE、MAP和贝叶斯估计都是参数估计的方法,也就是需要预先知道或假设样本的分布形式,只是一些参数未知。最大似然估计是最简单的形式,其假定参数虽然未知,但是为确定数值,就是找到使得样本的似然分布最大的参数。最大后验估计,和最大似然估计很相似,也是假定参数未知,但是为确定数值,只是目标函数为后验概率形式,多了一个先验概率项。
而贝叶斯估计和二者最大的不同在于,贝叶斯估计是将参数视为符合某种已知先验分布的随机变量,意思便是这个参数他不是一个固定的未知数,而是符合一定先验分布如:随机变量θ符合正态分布等!那么在贝叶斯估计中除了类条件概率密度 p(x|θ) 符合一定的先验分布,参数θ也符合一定的先验分布。我们通过贝叶斯规则将参数的先验分布转化成后验分布进行求解!在样本分布上,计算参数所有可能的情况,并通过计算参数的期望,得到后验概率密度。
对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值。在贝叶斯估计中,一个典型的效果就是,每得到新的观测样本,都使得后验概率密度函数变得更加尖锐,使其在待估参数的真实值附近形成最大的尖峰。

贝叶斯估计和MAP挺像的,都是以最大化后验概率为目的。区别在于:
1)MLE和MAP是直接估计出参数的值,而贝叶斯估计是估计出参数的分布,这就是贝叶斯与MLE与MAP最大的不同。
2)MAP在计算后验概率的时候,把分母p(X)给忽略了,在进行贝叶斯估计的时候则不能忽略
3)贝叶斯估计要计算整个后验概率的概率分布

贝叶斯估计使用贝叶斯定理去估计参数的后验概率密度:
p(θ|x)=p(x|θ)p(θ|η)p(x)=p(x|θ)p(θ|η)θp(x|θ)p(θ|η)dθ

4 最小二乘法

最小二乘法(Least Square)
通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。

Q(θ)=ni=1(Yif(xi|θ))2
θ表示要求的参数, Yi 为观测值(向量), f(xi|θ) 为理论值.
求解:多元函数求极值的方法,对θ求偏导,让偏导等于0,求出θ值。当θ为向量时,需要对各个 θi 求偏导计算。

你可能感兴趣的:(机器学习)