贝叶斯理论中的prior, likelihood, posterior即先验概率,似然,后验概率

1 准备

条件概率公式

P ( A ∣ B ) = P ( B ∣ A ) P ( B ) P ( B ) P(A|B) = \frac {P(B|A)P(B)} {P(B)} P(AB)=P(B)P(BA)P(B)

P o s t e r i o r ∝ L i k e l i h o o d ∗ P r i o r Posterior \propto Likelihood*Prior PosteriorLikelihoodPrior

两个式子对应起来,那么很显然有:

P ( A ∣ B ) ∝ P ( B ∣ A ) P ( B ) P(A|B) \propto P(B|A)P(B) P(AB)P(BA)P(B)

为了更方便理解,我们用一个常用的估计参数 θ \theta θ的例子来进行讲解

P ( θ ∣ X ) ∝ P ( X ∣ θ ) × P ( θ ) P(\theta|X)\propto P(X|\theta) \times P(\theta) P(θX)P(Xθ)×P(θ)

P ( θ ∣ X ) P(\theta|X) P(θX)是后验概率分布, P ( X ∣ θ ) P(X|\theta) P(Xθ)是似然概率分布, P ( θ ) P(\theta) P(θ)是先验概率分布

对这个公式的直观理解就是:

通过新一波采样得到数据 X X X,我们可以计算出新的 θ \theta θ的概率分布,也就是 P ( θ ∣ X ) P(\theta|X) P(θX)也称对 θ \theta θ的更新、纠正。

通过这个概率分布,我们就可以得到 θ \theta θ的值,计算方法就是求 P ( θ ∣ X ) P(\theta|X) P(θX)这个分布下, θ \theta θ的均值

贝叶斯派的基本思想 vs 频率学派基本思想

在贝叶斯理论中, θ \theta θ 是根据你的观测在不停变的。在这个过程中,每一次的观测,得到的具体数据 X X X则视作固定的。根据观测,会不断地更新这个 θ \theta θ

频率学派则相反。 θ \theta θ是一直都固定的。

无论你怎样进行采样, θ \theta θ都不会发生改变,因此想要求 θ \theta θ就得利用极大似然估计。这个本文不作介绍。

2 解释

Prior 先验 —— P ( θ ) P(\theta) P(θ)

之前的知识,我们对它刻板印象,没有基于观测的数据思考而进行的猜测。比如这里 θ \theta θ的分布是我们先前根据经验得来的,它的概率分布就是 P ( θ ) P(\theta) P(θ)

Likelihood 似然 —— P ( X ∣ θ ) P(X|\theta) P(Xθ)

顾名思义,似然就是像这样,因此其表达式肯定看着像,但不是真的

像什么呢?就是你得到的这些观测数据,是根据你的先验知识,估计而来而来的。其含义正是这个公式 P ( X ∣ θ ) P(X|\theta) P(Xθ)。它表示在给定 θ \theta θ的情况下, X X X服从的概率分布。

那么既然只是,哪里有问题呢?

结合之前所说, X X X固定的,根本不会随着 θ \theta θ的改变而发生任何变化。

因此,这里仅仅只是似然,假装是 θ \theta θ控制 X X X的生成,假装 θ \theta θ X X X的分布起作用。

Posterior 后验—— P ( θ ∣ X ) P(\theta|X) P(θX)

在你有了观测的数据之后,得到的新参数的概率分布。正如贝叶斯的思想所言,控制事务发生概率的参数 θ \theta θ是变化的,它会随着新的观测数据到来,不断改变。

有了它以后,可以根据概率分布求期望(均值),从而进行一些估计。

你可能感兴趣的:(数学)