机器学习入门:第六章 贝叶斯统计 前验概率(3)

门派之争

有个猎人带着你和你同学到森林里去打猎,当然猎人的枪法是你们三个人中最好的,突然枪响了一声,你回头一看兔子死了,你觉得这一枪是谁开的可能性更大,在看另一种情况,你听到枪响了三声(假设是同一个人开的),回头一看没有打中,兔子给跑了,还是让你猜,这三枪是谁开的。

来考虑下第一个问题,一枪就能够命中兔子,猎人的枪法比同学的枪法好,同学很可能一枪是命中不了目标的。第一个问题猜是猎人,同样的思路,三枪都没有命中目标,更可能是同学的行为。这里的主要思想是:猜测的依据是使观察的想象最大化,这句话比较拗口。
看一个用概率表示的例子:
假若一个盒子里有许多白球和红球,而且已知它们的数目之比是3:1,但不知是白球多还是红球多.设随机地在盒子中取一球为白球的概率是p。如果有放回地从盒子里取3个球,那么取到白球的数目X服从二项分布。

P ( X = k ) = C 3 k p k ( 1 − p ) 3 − k P(X=k)=C_3^kp^k(1-p)^{3-k} P(X=k)=C3kpk(1p)3k

用表格来表示如下的概率:

X 0 1 2 3
p=1/4时P{X=k} 27/64 27/64 9/64 1/64
p=3/4时P{X=k} 1/64 9/64 27/64 27/64

如果样本中白球数为0,则应估计p=1/4,而不估计p=3/4。因为具有X=0的样本来自p=1/4的总体的可能性比来自p=3/4的总体的可能性要大。一般当X=0,1时,应估计p=1/4;而当X=2,3时,应估计p=3/4。
取值尽量的让样本,最大可能度的发生,这就是所谓的极大似然法则。
极大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
首先,在求未知参数的时候,我们必须知道,样本服从那些分布,这也是很多人大力的研究概率分布的原因了。

经典的概率分布
二项式分布:

b ( i ; n , p ) = ( n i ) p i ( 1 − p ) n − i b(i;n,p)=\begin{pmatrix} n\\i\end{pmatrix}p^i(1-p)^{n-i} b(i;n,p)=(ni)pi(1p)ni

泊松分布:

P ( X = i ) = e − λ / i ! P(X=i)=e^{-\lambda}/i! P(X=i)=eλ/i!

正态分布:

f ( X = i ) = 2 π σ − 1 e − ( x − μ ) 2 / 2 σ 2 , − ∞ < x < + ∞ f(X=i)={\sqrt{2\pi\sigma}}^{-1}e^{-{(x-\mu)}^2/2{\sigma}^2},-\inftyf(X=i)=2πσ 1e(xμ)2/2σ2,<x<+

指数分布:

f ( x ) = { λ e λ x , 当 x > 0 0 , 当 x < 0 f(x)=\begin{cases} \lambda e^{\lambda x},当x>0 \\ 0,当x<0\\ \end{cases} f(x)={λeλxx>00x<0

有了这些分布,建立起了样本和概率之间的关系,就可以根据观察到的样本来估计参数
还有另另外一种方法,求解概率值,就是贝叶斯估计。
对于极大似然估计来说,在我们心目中,未知参数p就是简单地是一个未知数,在抽取样本之前,我们对p没有任何了解,所有的信息全部来自样本。
贝叶斯学派则不然,他的出发点是:在进行抽样之前,我们已经对p有一定的知识,叫做先验知识,比如在计算硬币的正反面之前,我们先前的知识就告诉我们正常情况下正反面的概率都一样1/2。这里“先验”的意思并非先验论,而只是表示这种知识是“在试验之先”就有了的,也有人把它叫做验前知识。
贝叶斯学派进一步要求:**这种先验知识必须用p的某种概率分布表达出来,这概率分布就是p的“先验分布”或者“验前分布”。**这个分布总结了我们试验之前对未知参数p的知识。而先验概率是一种已知的模型,他在我们试验之前就已经证明,先验概率的引入在某种程度上可以降低抽样时的误差干扰。
贝叶斯也有一些毛病,比如贝叶斯统计的一个基本要求是:你必须设法去定义这样一个h§,甚至出于你自己的主观认识也可以,这要成为问题中一个必备的要素。正是在这一点上,贝叶斯统计遭到不少的反对和批评,而一个初接触这个问题的人,也容易这样想:“这怎么行?我没有根据怎么能凭空想象去定出一个先验密度h§”。

你可能感兴趣的:(机器学习入门,机器学习)