【机器学习】频率派和贝叶斯派

1. 关键信息说明

x_{1},x_{2}, ... , x_{n} :指n个样本,每个样本有p个维度

X_{n*p} = \begin{bmatrix} x_{1}& x_{2} & ... & x_{n} \end{bmatrix}^{T}_{n*p}:指n个样本所形成的矩阵的转置,为n*p维矩阵,即样本矩阵

\theta:指X所代表的的分布中的未知参数

2. 频率派

2.1 核心思想

已知X的分布,找到未知参数θ,使得P(x|θ)最大。即最大似然估计MLE:\theta _ {MLE} =\mathop{ \arg\max_{\theta}} P(X| \theta) =\mathop{ \arg\max_{\theta}} logP(X| \theta) =\mathop{ \arg\max_{\theta}} log\prod_{i=1}^{n}p(x_{i}| \theta) = \mathop{ \arg\max_{\theta}} \sum_{i=1}^{n}logp(x_{i}|\theta)

2.2 简单案例

2.2.1 已知参数\theta

以两个箱子中的黑白球举例,\theta _{1}\theta _{2}分别为两个箱子中黑球的概率 ,此处\theta也就是p

1号箱子内有5个黑球和5个白球,2号箱子内有7个黑球和3个白球。

也就是说,p(黑球|1号箱子) = 1/2,p(白球|1号箱子) = 1/2,p(黑球|2号箱子) = 7/10,p(白球|2号箱子) = 3/10。

经过某一个箱子的10次有放回抽样,我们得到了8个黑球,2个白球。这些样本来自于哪个箱子呢?我们通常会认为来自于2号箱子的概率大,但是这是我们的经验判断,那么可观依据在哪呢?这就是最大似然估计思想的由来。

来看1号箱子得到该样本分布的概率,

即p(黑球|1号箱子)^8 * p(白球|1号箱子)^2 = (1/2)^8*(1/2)^2 = 0.000977

来看2号箱子得到该样本分布的概率,

即p(黑球|2号箱子)^8 * p(白球|2号箱子)^2 = (7/10)^8*(3/10)^2 = 0.005188

可以看出p(黑球|2号箱子)^8 * p(白球|2号箱子)^2  > p(黑球|1号箱子)^8 * p(白球|1号箱子)^2

从而判断该样本来自2号箱子。

2.2.2 未知参数\theta 

同样,我们再从一个仅含黑白球的箱子中有放回抽样十次,不同的是,此时我们并不知道箱子中黑白球的个数,即 \theta 是未知参数。

经过抽样,我们得到7个黑球,3个白球。那么我们能否得知P(黑球|箱子)和P(白球|箱子)的概率分别为多少呢?这也就是我们要找的未知参数θ。

通过极大似然估计,我们要找到一个θ,使得p(黑球|箱子)^7*p(白球|箱子)^3 = θ^7 * (1-θ)^3最大。

经过计算后,我们会得到θ的估计值,也就是7/10,这告诉我们,该箱子的黑白球很可能满足\theta _{MLE} = 0.7的二项分布。 这就是频率派要做的事。

2.3 频率派中的一维正态分布(高斯分布)

2.3.1 无偏估计\mu_{MLE}

一维高斯中,我们已知正态分布的概率密度函数:

\large p(x|\theta) = \frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}}

其中,\large \theta = (\mu,\sigma^{2})

若直观理解,当 \theta为何值时,\large p(x|\theta) 会取最大呢?

我们已知高斯分布是一个钟形,如图所示,

【机器学习】频率派和贝叶斯派_第1张图片

 显然,若要使\large p(x|\theta)最大,以该图为例,\large \mu需位于X轴的0点处,这时钟最高,表示\large p(x|\theta)最大。细心的朋友也可以发现,此时,\large \mu = \frac{1}{N} \sum_{i=1}^{n}x_{i},也就是说 \large \mu是样本均值。

若要严格推导,则需要使用MLE的方法。

推导说明如下:

  1. 首先,得到与\large \mu有关的式子
  2. 其次,对\large \mu求偏导,从而计算出 \mu_{MLE}

  3. 最后,验证\mu_{MLE}的无偏性

推导过程如下:

1.  得到与\large \mu有关的式子

【机器学习】频率派和贝叶斯派_第2张图片

2.  对\large \mu求偏导,从而计算出 \mu_{MLE}

【机器学习】频率派和贝叶斯派_第3张图片

 3. 验证\mu_{MLE}的无偏性

【机器学习】频率派和贝叶斯派_第4张图片

 2.3.2 有偏估计\sigma_{MLE}^{2}

推导说明如下:

  1. 首先,得到与\sigma_{MLE}^{2}有关的式子
  2. 其次,对\sigma求偏导,从而计算出 \sigma_{MLE}^{2}

  3. 最后,验证  \sigma_{MLE}^{2}的有偏性

推导过程如下:

 1. 得到与\sigma_{MLE}^{2}有关的式子

【机器学习】频率派和贝叶斯派_第5张图片

 2.  对\sigma求偏导,从而计算出 \sigma_{MLE}^{2}

【机器学习】频率派和贝叶斯派_第6张图片

3.   验证 \sigma_{MLE}^{2}的有偏性【机器学习】频率派和贝叶斯派_第7张图片

 可以发现,样本方差\sigma_{MLE}^{2}的期望(可以理解为均值)对于总体方差,是有偏的。为了得到无偏的总体方差的估计值,我们通常将样本方差除以N-1。 

2. 贝叶斯派

2.1 核心思想MAP

频率派仅根据样本最后的频率来找到参数从而使P(X|θ)最大。

贝叶斯派不仅要使P(X|θ)最大,同时还要使得P(θ)最大,使得后验P(θ|X) = P(X|θ)P(θ)最大0。

之所以忽略了P(X)这一边缘概率,是因为它的作用是归一化,然而我们的目的是比较后验概率,选择后验概率最大的那个参数,因此它也失去了作用。

通俗的理解是,在频率派的思想中,我们就想找到唯一一个θ,使得P(X|θ)最大,但这时我们要根据自身的经验,给P(X|θ)加一个权重P(θ),也就是 P(X|θ)P(θ)。此时P(X|θ)最大,但相乘起来并不一定最大。

2.2 案例说明

拿经典的抛硬币的案例作为说明,在频率派的视角中,假如对硬币抛了十次,获得7次正面,3次反面的样本,那么最终计算的θ为7/10和1-θ为3/10。这显然有一定问题,频率派没有考虑到该硬币是否是均匀的,仅根据样本结果进行了参数估计。而在贝叶斯派看来,在计算P(X|θ)的同时,还得考虑先验概率P(θ),即考虑硬币是否是均匀的的概率,使得P(X|θ)P(θ)达到最大。

2.3 贝叶斯估计

目的:对p(θ|X)建模

和MAP不同的是,贝叶斯估计将先验P(θ)的参数θ当做一个随机变量,P(θ)表示的是参数θ的分布,也就是我们所说的先验分布。似然P(X|θ)也服从某一分布。若这两个分布为连续型,则表示为f(θ)和f(X|θ)。

可以发现,原本的后验概率P(θ|X)=P(X|θ)P(θ)。此时后验概率的参数θ也会服从某一分布。我们称之为后验分布。

2.4 共轭先验

共轭先验指的是后验p(θ|X)的分布与先验p(θ)的分布一致,则p(θ)是p(X|θ)的共轭先验。若如2.3所说,后验概率的参数θ也会服从于某一分布,具体是什么分布未知。但如果f(θ)是f(X|θ)的共轭先验,后验分布会与先验分布一致,只是参数发生了变化。常见的,似然为二项分布,先验Beta分布是似然的共轭先验;正态分布是自身的共轭先验。

2.5 贝叶斯预测

目的:预测newX

知道了参数θ的后验分布,我们自然要用后验分布来做预测。

假设我们要预测newX

p(newX|X) = \int p(newX|\theta,X)p(\theta|X)d\theta = \int p(newX|\theta)p(\theta|X)d\theta

通俗的理解是,将旧样本训练出的后验分布p(θ|X)作为新的先验,得到X和θ条件下的newX的分布,再通过p(newX|θ, X)p(θ|X)求得边缘概率p(newX|X),这就是我们对newX的预测。

你可能感兴趣的:(机器学习,数据分析,机器学习,统计学,概率论,数据分析)