最大似然估计(MLE)与最大后验估计(MAP)

对于函数P(x|θ),从不同的观测角度来看可以分为以下两种情况:

如果θ已知且保持不变,x是变量,则P(x|θ)称为概率函数,表示不同x出现的概率。
如果x已知且保持不变,θ是变量,则P(x|θ)称为似然函数,表示不同θ下,x出现的概率,也记作L(θ|x)或L(x;θ)或f(x;θ)。
最大似然估计是已知模型服从某种分布,但不知道其某个具体参数(比如我们已经模型服从正态分布,但不知道均值和方差),现在,在该分布下发生了若干次随机试验,得到若干个观察值x1,x2…xn,现在我们想通过这n个观察值来估计未知的某个具体参数。(基于简单的理解,某个事件发生了,那么就假设他的概率是最大的,把这n个观察值在这个分布下的概率乘起来(显然每个观察值出现的概率都是该未知参数的函数)),整体就是一个关于该未知变量的函数,求其最大值(函数整体对该未知参数求导(更经常使用的是利用函数的对数对其求导,结果是一样的,不影响,之所以先取对数再求导是因为函数整体是若干个乘积,先取对数可以将乘积变成相加,之后再求导更简单),导数为0,就可以解出这个位置参数的具体的值了)。
最大后验估计和最大似然估计的不同之处在于,最大似然估计是把某个未知的参数当成一个具体的值的,我们通过n个观察值可以准确的求出该未知参数的具体值是多少。而最大后验估计是对该未知参数有一个先验估计,该未知参数不是一个具体的值,也服从某个分布。我们把这n个观察值在这个分布下的概率乘起来再乘以n次该未知参数的先验分布,求解过程一样,最后,我们求出来的该未知参数并不是一个具体的值,它也是由几个变量控制的。
从贝叶斯的角度来看,正则化等价于对模型参数引入先验分布,对参数引入高斯先验等价于L2正则化,对参数引入拉普拉斯先验等价于L1正则化。

1.最大似然估计 (MLE) 最大后验概率(MAP)
2.详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解
3.贝叶斯估计、最大似然估计、最大后验概率估计
4.聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计
5.LR正则化与数据先验分布的关系?

你可能感兴趣的:(机器学习)