频率学派和贝叶斯学派的一些区别

很多人能讲出一大堆哲学理论来阐明这一对区别。
但我觉得,从工程师角度来讲,这样理解就够了:
频率 vs 贝叶斯 = P(X;w) vs P(X|w) 或 P(X,w)

你是把参数当作一个待确认系数 还是一个随机变量。

----------------------------------------------------------------------------------------------------------------------------------------


作者:许铁-巡洋舰科技
链接:https://www.zhihu.com/question/20587681/answer/122348889
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

对于概率的解读区别了频率流派和贝叶斯流派。如果你不理解主观概率就无法理解贝叶斯定律的核心思想。

首先谈概率,概率这件事大家都觉得自己很熟悉, 叫你说概率的定义 , 你却不一定说的出,我们中学课本里说概率这个东西表述是一件事发生的频率, 或者说这叫做客观概率。

而贝叶斯框架下的概率理论确从另一个角度给我们展开了答案, 他说概率是我们个人的一个主观概念, 表明我们对某个事物发生的相信程度。 如同Pierre Lapalace说的: Probability theory is nothing but common sense reduced to calculation. 这正是贝叶斯流派的核心,换句话说,它解决的是来自外部的信息与我们大脑内信念的交互关系。

我们来看一下贝叶斯统计的一个有趣的案例案例:假如你是一个女生, 你在你的老公书包里发现了一个别的女人的内裤那么他出轨的概率是多少。

稍微熟悉这个问题的人对会知道做这个题目你要先考察基率,你要把这个问题分解为几步考虑:

1,你老公在没有任何概率情况下出轨的概率是多少? 如果他是个天生老实巴交的程序员或者风流倜傥的CEO, 那么显然不该一视同仁

2,如果你老公出轨了, 那么他有一条内裤的概率是多少, 如果他没出轨, 出现这个情况概率有多少? 想想一般人即使出轨也不会犯那么傻的错误, 会不会有没出轨而出现内裤的状况? 有没有可能是某个暗恋你老公的人的陷害?

3, 根据1 和2求解最终问题,这才是拥有大学数学能力的你该做的分析。

在这里1其实就是先验概率P(A),而2是条件概率P(B|A), 最终得到3后验概率P(A|B)。这三种即是贝叶斯统计的三要素。

基于条件概率的贝叶斯定律数学方程极为简单:

A即出轨, B是内裤出现, 你得到1,2,就可以根据公式算出根据根据内裤出现判断出轨的概率。

先验概率在贝叶斯统计中具有重要意义,首先先验概率即我们在取得证据之前所指定的概率P(A), 这个值通常是根据我们之前的常识,带有一定的主观色彩。 就像刚刚说的出轨的问题, 你的先验概率代表了你对你男人的信心。

贝叶斯分析的思路对于由证据的积累来推测一个事物发生的概率具有重大作用, 它告诉我们当我们要预测一个事物, 我们需要的是首先根据已有的经验和知识推断一个先验概率, 然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。

-------------------------------------------------------------------------------------------------------------------------------------



从数学上来说就是一个能不能加先验概率的问题。频率派认为不能加,贝叶斯派认为可以加。加一个先验概率往往有利于数学推导,即使是加一个没有任何信息的non-informative prior也行。因此说贝叶斯派首先是一个数学上便利的方法。我相信大多数科学家对数学方法没有信仰,哪个能解决实际问题就用哪个。

但是有些贝叶斯信徒不满意这种纯功利的解释,而要把这种数学方法上升到方法论的高度。比如xkcd的漫画,就是找到一个例子从而贬低频率派:你连太阳爆炸都信啊,啊哈哈哈哈。

可惜光笑不解决问题。实际使用中无法回避的问题是,先验概率是怎么来的?有些问题,比如太阳有没有爆炸之类,有比较明确的先验概率。而我们之所以相信这个先验概率,无非是因为我们知道在地球诞生以来的几十亿年里太阳都没有爆炸。我们不相信心电感应,无非是因为我们的日常生活中极少有人见过心电感应。仔细考察起来,这些先验概率其实也是从长期观察得来的。如果考虑到这点,频率派和贝叶斯派就很难区分了。

更糟糕的是,科学实验往往探索的是以前没有探索过的新领域。很少有人去研究心电感应这种没什么希望的东西(也很少有人会资助这种研究)。在一个新领域,往往没有特别公认的先验概率,那么怎么办呢?这时候往往还是使用不提供任何信息的non-informative prior。

尤其在假设检验的时候,贝叶斯派对p-value很不满意。但是你总不能说,因为我相信我的结论,所以我的结论是正确的吧。那就不是科学研究了。贝叶斯派总是说,得出先验概率要用经验,用知识,用这用那,可是提不出一个公认的标准方法。科学工作者需要向同行证明自己的工作有效。如果没有一个客观公认的方法,就很难让别人相信,因此尽管p-value存在这样那样的问题,科学界也很难抛弃它,最多是做一些有针对性的预防措施。

话说回来,我以为这种争议没有太大意义。贝叶斯作为一种数学工具很好用,尤其在利用大量计算的统计模型中非常有效,因此在近年流行很广。但是数学应该保持数学的本色。脱离了数学去谈论哪种更好,我实在看不出有太多不得了的意义。

----------------------------------------------------------------------------------------------------------------------------------------------

频率学派最先出现,疯狂打压新生的贝叶斯学派,贝叶斯很凄惨,就跟艺术圈的梵高一样,死后的论文才被自己的学生发表,经过拉普拉斯之手发扬光大,目前二派就像华山派的剑宗和气宗。频率学派挺煞笔的,非得做大量实验才能给出结论,比如你今年高考考上北大的概率是多少啊?频率学派就让你考100次,然后用考上的次数除以100。而贝叶斯学派会找几个高考特级教师对你进行一下考前测验和评估,然后让这几个教师给出一个主观的可能性,比如说:你有9成的把握考上北大。
目前贝叶斯学派的应用很广,比如说预测美国总统竞选成功的概率,巴西下届世界杯夺冠的概率,明天下雨的概率,运载火箭发射成功的概率,等等。而这些事件的概率,频率学派是无法进行估计的,因为这些事件不可能在相同条件下重复。二派的区别主要在于对概率的定义,频率学派就是很客观的了。而贝叶斯学派认为概率就是人对一个事件发生有多大的信心。虽然二者对概率的定义不同,但是都满足概率的公理化定义所要求的条件。






你可能感兴趣的:(机器学习)