碎碎念：这节二元分布折腾了我好一整子，因为直接看英文，后面再看中文翻译，折腾得够呛的，不过现在看到英文虽然还是很怕，但下意识不是跳过了，而是会硬着头皮读下去，至于读不读得懂又是另一回事啦！虽然还有一大部分内容还有四五十页，不过，嘿嘿，我打算着手中文了，要不我真的快被榨干了(┬＿┬)

repost : the link between Bayes'theorem and maxmizing likelihood function

repost : the introduction about the Bernoulli distribution & Binary Variables & Multinomial Variable & beta distribution & Dirichlet Distribution

Bayesian threorems(贝叶斯定理)：

2.1.1

在机器学习的应用中，它属于后验概率（posterior distribution）, 表示事情已经发生的结果下，它属于哪类。

其中，

Prior probability (先验概率)：

Class-conditional-probability (类条件概率)：

Posterior probability(后验概率)：

因为分子为正数，对后面的估计没有影响，即后验概率与（先验概率x类条件概率）成正比关系，即共轭性（conjugacy）。

但是，实际问题中我们获取的数据可能只是有限数目的样本数据，而先验概率和类条件概率都是未知的，如果仅仅根据样本数据分类时，我们必须先对先验概率和类条件概率进行估计，再套用贝叶斯公式，先验概率比较简单，而类条件概率比较难，信息是随机的，样本数据不多，这样我们就要将其转换为估计参数，其中最大似然估计就是一种较好的估计方法。

the beta distribution(贝塔分布) —— the prior probability

其中gramma function是为了保证beta distribution的归一化（normalized），其定义如下：

百度百科

百度百科

（3）保证beta distribution 归一化(normalizedS)：

Why introduce the beta distribution :

为了找到一种先验概率与后验概率（即贝叶斯公式）有着相同的公式形式，从而符合共轭性，如果找到这样的函数，则这样的函数会有很多有用的性质，所以，我们找到了 beta distribution,与后验函数有着相同的函数形式，如下：

the mean(均值) and variance（方差）of the beta distribution are given by:

其中，a and b are often called hyperparameters(超参数)，控制参数：

来源《PRML》Figure 2.2

Maximum likelihood estimation —— the posterior dristribution

why introduce the MLE:

由Bayesian threothm的思路，类条件概率比较难，信息是随机的，样本数据不多，这样我们就要将其转换为估计参数，其中最大似然估计就是一种较好的估计方法。

最大似然估计目的是：利用已知的样本结果，反推最有可能导致这样结果的参数值。

最大似然估计原理是：给定一个概率分布D,假定其概念密度函数（连续分布）或者概率聚集函数（离散分布）为fD，以及一个分布参数θ，我们可以从这个分布中抽出一个具有n个值的采样X1,X2,…,Xn，通过利用fD，我们就能计算出其概率：