最大似然估计与贝叶斯

最大似然估计(maximum likelihood estimates,MLE):一种确定模型参数值的方法。确定参数值的过程,是找到能最大化模型产生真实观察数据可能性的那一组参数。

过程:通过观察数据分布(如8,9.5,11),预估一个模型(比如正态分布,这个判断通常来自于领域内专家),然后求出在该模型下发生此数据分布概率最大的模型(求参数组合-均值与方差),这样就确定了这个高斯模型(的参数组合),我们找到的(每个)参数值被称为最大似然估计,也就知道了在该观察数据的情况下,可能性最大的模型。该模型(正太分布)的最大值即为最大似然度。

计算:对公式的参数求偏导,得零时的参数为该参数的极大似然估计。

问题

为什么叫「最大似然」而不是「最大概率」

答:最大概率是指知道参数后计算概率,最大似然是指知道数据分布来求可能性最大的参数。

贝叶斯定理:利用已有的知识或信念(通常称为先验的)帮助计算相关事件的概率。

示例1:在炎热的天气中卖出冰淇淋的概率

先验知识:卖出冰淇淋的概率,比如100人中30人买了,0.3

观察数据:卖出冰淇淋中是炎热天气的概率

后验分布:根据先验和观察得到的后验概率分布

示例2

先验知识:已知氢键键长概率在3.2-4.0之间 —> 均值为3.6,标准差为0.2的高斯分布;

观察数据:5个数据点 —> 均值为2.8,标准差为0.4的高斯分布;

后验分布:根据先验和观察得到的后验概率分布,均值3.2

贝叶斯定理的模型形式

模型形式的贝叶斯定理将使用不同的数学符号。

我们将用Θ取代事件 A。Θ是我们感兴趣的事件,它代表了参数的集合。因此如果要估计高斯分布的参数值,那么Θ代表了平均值μ和标准差σ,用数学形式表示为Θ = {μ, σ}。

我们用 data 或 y={y1, y2, …, yn} 取代事件 B,它代表了观察数据的集合。

其中 P(Θ) 是先验分布,它代表了我们相信的参数值分布,和上述例子中代表卖出冰淇淋的概率分布类似。等式左边的 P(Θ|data) 称为后验分布,它代表利用观察数据计算了等式右边之后的参数值分布。而 P(data| Θ) 和似然度分布类似。

因此我们可以使用 P(data|Θ) 更新先验信度以计算参数的后验分布。

等等,为什么忽略了 P(data)?

因为我们只对参数的分布感兴趣,而 P(data) 对此并没有任何参考价值。而 P(data) 的真正重要性在于它是一个归一化常数,它确保了计算得到的后验分布的总和等于 1。

在某些情况下,我们并不关心归一化,因此可以将贝叶斯定理写成这样的形式:

其中 ∝ 表示符号左边正比于符号右边的表达式。

把先验用作 regulariser

我们在上述氢键长度实例中产生的数据表明,2.8Å是最佳估计。但是,如果我们的估计只依据数据,则存在过拟合的风险。如果数据收集过程出现差错,这将是一个严重的问题。我们可以在贝叶斯框架中使用先验解决这一问题。在我们的实例中,使用一个以 3.6Å为中心的高斯先验得到了一个后验分布,给出的氢键长度的 MAP 估计为 3.2Å。这表明我们的先验在估计参数值时可以作为 regulariser。

参考:https://www.jiqizhixin.com/articles/2018-01-09-6

你可能感兴趣的:(最大似然估计与贝叶斯)