beta分布_Beta分布与贝叶斯估计

beta分布_Beta分布与贝叶斯估计_第1张图片

  文章贝叶斯估计介绍了贝叶斯估计,趁热打铁,将其应用起来并介绍beta分布与其推广为狄利克雷分布。

  文章会以丢硬币事件作为例子做具体讲解。随机变量

表示丢硬币事件,显然服从伯努利分布,
表示丢出正面,
表示丢出背面。假设硬币丢出正面的概率是
,投掷了多次出现了
次正面,
次反面。投掷了多次后生成了一批观测数据

1.Beta分布

  有关丢硬币问题,我们采用贝叶斯估计有:

为了估计出后验分布的形式,我们需要知道似然

与先验分布

  似然很好求,在伯努利试验中可以得到:

  关于先验分布,我们认为

服从的是Beta分布:

beta分布_Beta分布与贝叶斯估计_第2张图片

为什么是Beta分布,我们先观察一下beta分布在不同参数下的形式

beta分布_Beta分布与贝叶斯估计_第3张图片

我们可以观察到,beta分布位于区间(0,1)之间,且随着

的变化曲线会呈现各种形状,包括形如均匀分布以及正态分布的形式等。beta分布的期望/均值为:

我们观察右图,发现峰值落在了均值位置处,且分布主要位于附近区域。

  总结一下为什么要选用beta分布

1. 它形状多变,可以呈现出不同的的分布形式;

2. 对于伯努利试验而言,当参数

设定为正类数目,
设定为负类数目,曲线呈现出以均值为最高,且分布主要落在附近区间的形式,此时我们将曲线的横轴看作是试验中发生正例的概率的取值(
),而纵轴就是该取值的概率大小(有点拗口,就是参数
的概率大小),刚好符合我们的预期,即根据观测数据,出现正类的概率大概率为均值与附近取值;

3. 后面会发现,当似然服从伯努利分布、先验服从Beta分布时,后验分布也为Beta分布(此时称先验分布与后验分布为共轭分布),这样的好处在于计算很方便,随着观测数据的增加可以很快的得到新的后验分布。

2. 共轭分布与共轭先验

  现在有了先验分布、似然,就可以接着做贝叶斯估计了。我们根据以往数据,给出先验知识,例如在以前的数据中,硬币出现了

次正面,
次背面,代入beta分布后有:

beta分布_Beta分布与贝叶斯估计_第4张图片

接着贝叶斯估计有:

得出后验分布同样服从Beta分布

,我们加上标准化函数后可以得到:

像这种先验分布和后验分布具有相同形式时,先验分布和后验分布称之为共轭分布,此时先验被称为似然函数的共轭先验。共轭先验的好处是计算很方便!

  为什么这么说呢?我们从当前的数据

和先验知识得到了当前的后验分布,但是如果添加了新的观测数据呢?是不是还要再重新算一次?不需要!此时只需要调整原本的后验分布
中的
即可。 例如根据以往的数据和当前的观测数据,我们得到
,得到后验分布
,绘制曲线如下所示

beta分布_Beta分布与贝叶斯估计_第5张图片

接下来我们多了新的观测数据,正面多了5次,背面多了10次,后验分布更新为

,绘制曲线如下:

beta分布_Beta分布与贝叶斯估计_第6张图片

可以发现曲线再加入了新的观测数据后做了调整。接着我们多了新的观测数据,正面多了1000次,背面多了500次,后验分布更新为

,绘制曲线如下:

beta分布_Beta分布与贝叶斯估计_第7张图片

我们还能发现,随着观测数据的增加,先验知识逐渐减弱,此时越来越接近于极大似然估计。

3.贝叶斯估计做预测

  在第一篇文章中有介绍到,贝叶斯估计做预测是利用后验分布,现在希望得到下一次试验出现正面的概率,有:

很惊奇的发现,这就是期望

啊,而后验分布为Beta分布,故我们可以得出:

至此我们完成了贝叶斯估计。作为对比,我们做极大似然估计,即最大化似然函数:

最大化似然函数,求偏导等于0可以得到:

  我们将贝叶斯估计的结果和极大似然估计的结果对比一下:

可以看出,当无先验知识时,贝叶斯估计就是极大似然估计了。随着观测数据的增大或观测数据很大时,先验知识所占的比重会越来越小。

参考:

1. 《贝叶斯引论》(Introduction to Bayesian Networks) 第7.3节

2. 李文哲:机器学习中的MLE、MAP、贝叶斯估计

3. 什么是狄利克雷分布?狄利克雷过程又是什么?

4. https://blog.csdn.net/baimafujinji/article/details/51374202

5. 贝叶斯估计、最大似然估计、最大后验概率估计

6. https://zh.wikipedia.org/wiki/%E7%8B%84%E5%88%A9%E5%85%8B%E9%9B%B7%E5%88%86%E5%B8%83

7. https://blog.csdn.net/bumingqiu/article/details/73397812

8. https://en.wikipedia.org/wiki/Conjugate_prior (内附共轭分布表)

9. https://zh.wikipedia.org/wiki/%CE%92%E5%88%86%E5%B8%83

10. Laplace smoothing and Dirichlet prior

传送门

贝叶斯估计:https://zhuanlan.zhihu.com/p/72506771

狄利克雷分布与贝叶斯估计:https://zhuanlan.zhihu.com/p/72538662

你可能感兴趣的:(beta分布)