贝叶斯的路——概率论迷思
作者:覃含章
我想,任何一个进入概率论(然后才是统计学)大门的年轻人,一定会在学习的过程中对这套理论的逻辑自证性有所怀疑,或者对那些“样本空间”里的“变量”和“空间”里那些“原本存在”的“变量”间的关系有所困惑的。至少,我是这样的。
经历了这短短一个学期,困惑越来越多。因此借着某课读书报告的机会,我试图把自己在概率世界里所涉猎的这么一丁点问题引发的思考搜集起来,在这篇文章里做一个梳理。
是的,那是另一个世界,我称它为概率的世界,数学上则喜欢命名为概率的空间。虽然它确实好像对我们生活的这个现实世界有着巨大的应用价值,但是那条此世界——彼世界的鸿沟一直都在,或许将永远在那里吧。
在本篇文章,我将考虑一些哲学的问题,并给他们数学的回答。
(事先说明:这篇文章引用了许多资料,纯当科普,欢迎批评指正,不吝赐教)
一、 ****连接两个世界的桥梁:测度
某种意义上说,我成为了pkli老师课件中一个集合的补集:没有去“Have Fun”,反而自作多情地选修了数学系的“测度与积分”,主要学习了进入概率世界的这把钥匙——勒贝格在一百年前建立的测度体系和方法。也可以说是从初等概率论(经验/古典概率论)到公理化概率论(现代概率论)的飞跃。
不过,问题随之接踵而来。
我始终感觉,数学是先验的,它总是先霸道地构筑出一个逻辑的大厦,然后其它领域的工程师科学家欣喜地发现,“哎,好像这个定理拿来解决这个问题很方便的说。”这个构筑的过程仍然是受到现实世界的启发,但当它一经完备化,就变成了独立的另一世界。
而测度论所要解决的一个现实世界的本质问题在古希腊就有:即那个著名的“芝诺悖论”。一支离弦之箭,把它分成无数个瞬间,皆是静止的,那它又怎么能运动呢?反之亦有矛盾。
在这里,本质便是对“时间”碎片的度量。换句话说,我们把连续的时间片段划分成了无数的时间碎片。首先,这种划分是否可以?第二,这些碎片的长度之和是否是原时间片的长度相等?
测度论对这个问题给了百分百明确和不容置疑的答案。
比如,对时间如此任意的划分是否可以做到?
自从伟大的德国数学家康托(Cantor)建立起了第一个在数学意义上可谓严格的集合论之后,当时的那一些原本混乱的问题就开始变得清晰起来:实数集合可数么?自然数集是否和有理数集一样多?当势(Cardinality)的概念一被引入,人们发现了一套崭新的、严密的语言来描述数学化的问题。
当然,后来又有罗素给的古怪集合:
A={x|x∉A}
这直接引发了更深层次的关乎数学的逻辑危机:A究竟是不是一个集合?如果是,它的元素是什么?(触及了形式逻辑的语义问题)好在后来泽梅罗提出选择公理(不是所有我们脑袋中的“集合”都可以被理所当然地叫做“集合”)的新集合论体系,真正将集合论公理化。(然而古怪的问题还是不少,如Banach分球定理等)不过我们可以先不管那么多怪诞的例子,而仅限于我们这个世界在概率世界的“映射”。
测度论的逻辑就高明在这个地方。它对“测度”的定义并非凭空而来,而是依赖于每个人的定义。
你需要先把现实世界映射到那个测度和概率的世界里,甚至连你想怎么度量都得告诉我,然后我再告诉你如何去度量这个世界里所有的元素。
但是,你不能故意地给出一些非常恶劣的片段去做“映射”,那是违反“数学法则”的。既然要去另一个世界,就得守另一个世界的规矩。
假设我们把每一个事件放在一个叫做X的集合里。(对于芝诺悖论,那就是{t0时刻箭是静止的,t1时刻箭是静止的,t2时刻箭是静止的….},这个集合的元素个数是无限个)
谨小慎微的数学家规定了如下一个叫sigma-代数(也就是概率论里的基本事件空间)的玩意(我们叫它A):
1、 空集(空事件)在A中,X(全事件)在A中。
2、 如果a事件在A中,那么a的补集(“a事件不发生”这一事件)也在A中。
3、 如果有a1、a2、a3、……、an这些事件(可以是可数无穷个!)在A中,那么“它们都或许发生”这一事件(即全部取并集)也在A中。
(满足以上三个条件的集合就是一个sigma-代数)
好了,如果我们定义的映射能够“扩张”到这么一个sigma-代数上[1],我们就可以度量这些事件的“长度”——也即它们的概率。用的工具就是测度——在这里也可以看成“概率测度”。[2]
A的定义很诡异,不过好在我们可以通过扩张的思想“生成”这么一个古怪的sigma-代数。接下来我们定义测度:定义虽简单,但是其内涵却更是深厚。
我们定义映射μ:A-->[0,+∞).
如果μ满足:
1、 μ(∅)=0.(空事件发生的概率为0)
2、 如果a1、a2,…,an∈A且ak∩aj=0(1≤k,j≤n,k≠j),则[3]
(满足以上条件的映射就叫做一个A上的测度)
于是我们看到了测度定义的高明和狡猾之处。你得先给我一个合适的事件集合X(它可以生成A),再给我一个你的度量方法μ,然后我才出手,建立一个测度空间(概率空间),可以将它记为(X,A,μ),对这个空间中的一切,我们都可以完美地、没有疑惑地度量出来。而所需要的,仅仅是每一个事件的长度就是其子事件长度的和,以及这个度量的方法,仅此而已。[4]
回到芝诺的那个问题。它把时间作为需要度量的目标:把时间划分为无穷多个瞬间,没有问题,那便对应[ts,tp]这个区间中的所有点,即时刻ts,…,tp。(把这些点和区间定义在Borel代数上)如果我们认为这段时间的长度μ([tp,ts])=ts-tp,我们就可以通过严格的数学证明推导出μ(t0)=μ(t1)=…=μ(tn)=0。(单点集是零测集)直到这里芝诺都是对的,确实,每一个瞬间没有长度,箭的“连续运动”在这段时间的每个瞬间都是不成立的。
由此,“长度”的概念被完完全全确定了,而它的建立完全是一种逻辑的推演。只要你给出一个“长度”的标准,比如对一枚1元硬币,定义了μ({得到正面})=p,μ({得到反面})=1-p,那么我们就可以依此建立一个极其复杂的概率空间:在这个空间里,你可以随意地抛无限次硬币,(注意是可数无穷多次!)数学家都可以清晰无误地来描述这无穷次硬币抛掷事件的分布。(这里,便是个二项分布)
如果我们对事件集合X和相应的度量方式μ改变了,自然它们所导致的分布也会变化:正态分布、超几何分布、t-分布,….不过是不同样貌的概率空间而已,实质一样。
至此,井然有序的概率世界就被建立了:这其中有不同的概率空间,在每一个概率空间里,所有的一切都那么精确和自然,“概率”不过就是每一个事件的“长度”而已,至少在逻辑上,没有什么不确定性和混乱了。
二、 ****从抽象中走回去:贝叶斯的方法
然而统计学家们对数学家构建的“空中楼阁”始终不满意:就不说你们为了逻辑的完整性,必须要求在可测的sigma-代数上建立概率空间,(虽然这可能是更本质的问题)而是实际上生活中我们有时候甚至连一个对概率确切的度量μ都给不出来!正如本文最前面所提的,实际所采的样本和理想的概率分布一定会有差别,历史上那几个做抛硬币实验的人也不过只能把概率的值无限逼近0.5,但绝不可能精确相等。Lebesgue之后,Kolmogorov等人弄出大数定律,告诉了在数学上这事情非常合理。[7]但是统计学家们还是不买帐:数学家们总是花很大的力气,弄一些有关“存在性”的证明,但是他们最想知道的是这些具体的、细微的差别如何衡量,如何预测与推断!(也只有这样才具有真正的“实用价值”)
后来,贝叶斯的方法横空出世,惊艳地站到了人们的眼前,在之后的几十年时间里被人称赞不断,同样诽谤不断,讽刺性地变成了一个“Controvesial Theorem”。[8]只是这个时候,伟大的贝叶斯早已长眠于地下。(他生活的年代实际上是18世纪!)
实际上贝叶斯从未完整地提出过一个“贝叶斯”的理论。他生前不过是考虑了一个“逆向概率”的概念:相对于正向概率的问题:“设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。有这么一个逆向概率的问题:“我们事先不知道袋子里面黑球与白球的比例,而是闭着眼睛摸出几个球。观察这些被取出球的颜色之后,我们可以就此对袋子里面的黑白球的比例作出推断。”
而贝叶斯的公式的实质就是用了我们都十分熟悉的“条件概率”的公式:[9]
但是一如“测度”的定义,简单的公式却往往具有无穷的力量。那是思想的力量。
贝叶斯的公式在20世纪席卷了概率论。并且导致了直到现在还喋喋不休的“贝叶斯学派”和“频率学派”之争。
附上一张趣图:
呃…..我想对两边都进行吐槽:左边的老学究严格遵守“置信区间”的推断方法,极度理性。而右边的“贝叶斯学派”看到了仪器“貌似说谎”这么一个事件,然后直接推断:“嗯,那就是说谎了。”[10](图片上没有给出其它的先验信息)实则表现与赌徒无异……
实际上,频率学派的统计学家总是根据随机事件发生的频率,或者总体样本里面的发生事件的频数个数来赋值概率;贝叶斯主义者则根据未知的命题来赋值概率。这样的理念差异也直接导致贝叶斯方法的适用性更广。
也正是因此,贝叶斯的方法以前所未有的速度被立即广泛用到了几乎生活的各个领域:它变得无处不在。回顾人类发展的历史总是这样,当数学界为某个概念是否合理吵得不可开交的时候,这个东西可能早就被世人用得滚瓜烂熟了。比如,柯西和康托之前的微积分。(用在了结构力学、流体力学、建筑学、经济学中……)
当然了,贝叶斯学派的统计学家绝不可能是在瞎蒙,概括而言他们总是做两件事情:[11]
1、算出各种不同猜测的可能性大小。
2、算出最靠谱的猜测是什么。第一个就是计算特定猜测的后验概率,对于连续的猜测空间则是计算猜测的概率密度函数。第二个则是所谓的模型比较,模型比较如果不考虑先验概率的话就是最大似然方法。
我这里就举一个机器学习的例子,这一个例子就足以让第一次接触的人感触良多了。[12](同样参考了刘未鹏的博客)
这个例子是Google系统利用统计语言模型来进行语言处理,对于多国语言间的翻译来说,“分词”是必要的第一步。
所谓分词,即是把一句话:“清华大学考试周真的是惨绝人寰啊。”分成一串词:清华大学 /考试周/真的/是/惨绝人寰/啊。(当然,“清华大学考试周”也可以作为一个词)
而目前Google所用的方法,是上世纪90年代郭进提出的:
我们假定一个句子S可以有几种分词方法,为了简单起见我们假定有以下三种:
A1, A2, A3, ..., Ak,
B1, B2, B3, ..., Bm,
C1, C2, C3, ..., Cn.
其中,A1, A2, B1, B2, C1, C2 等等都是汉语用词。而最好的一种分词方法应该保证分完词后这个句子出现的概率最大。也就是说如果 A1,A2,..., Ak 是最好的分法,那么P(A1, A2, A3, ..., Ak)>P (B1, B2, B3, ..., Bm),并且 P (A1, A2, A3, ..., Ak)>P(C1, C2, C3, ..., Cn) 。因此,只要我们利用上回提到的统计语言模型计算出每种分词后句子出现的概率,并找出其中概率最大的,我们就能够找到最好的分词方法。
这个模型应该很好理解,而问题的关键就在于怎么找到这个“最大”的概率。按照传统理论,对一组词P(A1,A2,A3,…,Ak)=P(A1)P(A2|A1)P(A3|A2∩A1)…P(Ak|Ak-1…A1)。那么这个动态规划的递归办法看起来似乎很好用,这k个条件概率中的每一个都依赖于前k-1个概率的值,(如P(Ak|Ak-1…A1)依赖于P(Ak-2)…P(A1)))但是实际上当n很大的时候这种计算对于数据存储的要求和时间复杂度都会急剧增加。
于是,这里我们引入贝叶斯的办法:我们认为P(Ak|Ak-1…A1)就仅仅依赖更少的前有限个词的概率,极端的情况就是仅仅依赖1个:P(A1,A2,A3,…,Ak)就变成了P(A1)P(A2|A1)P(A3|A2)…P(Ak|Ak-1)。不仅问题的复杂度大大降低,而且我们甚至还可以证明,这种分法将是极其有效的。(比如那句“清华大学考试周真的是惨绝人寰啊。”)
这种思路也被称为“朴素贝叶斯方法”(Naive Bayes),各大邮箱基本上也是采用类似的方法来剔除“垃圾邮件”的。(依据“垃圾字词”出现的概率)
关于这种方法的优越性,有一篇论文作了详细的证明:
http://www.cs.unb.ca/profs/hzhang/publications/FLAIRS04ZhangH.pdf。
《分析概率论》的作者,概率论奠基人之一的法国数学家拉普拉斯曾说:“对于生活中的大部分,最重要的问题实际上只是概率问题。你可以说几乎我们所掌握的所有知识都是不确定的,只有一小部分我们能确定地了解。甚至数学科学本身,归纳法、类推法和发现真理的首要手段都是建立在概率论的基础之上的。因此,整个的人类知识系统是与这一理论相联系的……”
贝叶斯的广泛应用就充分说明了这一点。它虽然存在理论层面的争议,但却早已经如火如荼地被用在了人类生活的各个领域,并且几乎无处不在、到处大显神通。
然而,在哲学上,贝叶斯的方法终究还是危险的。一些问题被它的功能掩盖了,但这并不意味着这些问题能永远被遮蔽,而永不发作。
三、 ****最后的探讨:贝叶斯方法的科学合理性?
我从来不认为哲学与科学应该分开。虽然在本文的第一段,我给出了现代数学对于那个关于“度量”的哲学命题的决断性的“数学式回应”,但这并不意味着数学能解决所有的问题。实际上,如果说数学为所有的自然科学打下了理论的基础的话,哲学往往更上一层,它考虑了许多数学家都还来不及关心的问题。比如,让我们再次回到三百年前贝叶斯考虑的那个球的不同颜色概率的问题:你怎么可以在什么都不知道的情况下,那么任意地玩弄“概率”的值呢?
如果这个例子还不够明显,让我们重新来考虑这两个经典的问题:
1、 一个家庭有两个孩子,其中一个是男孩,问另一个也是男孩的概率多少?
2、 一个家庭有两个孩子,其中一个男孩是周四出生的,问另一个也是男孩的概率多少?
实际上,每次探讨这样的问题,我内心都会感到一种无法逃避的痛苦:如对于第一个问题,如果没有“那个家庭”,那么生出一个男孩的概率必然是1/2。可是对那个家庭来说,(相当于我们换了一个样本空间)一共就是{男男,男女,女女}三种情况,那么即是1/3。
而第二个,即那个周四出生男孩的概率,可以是1/2,可以是1/3,甚至还可以是13/27(把样本空间当成{周一男周二男,…,周日男周日男}共28-1=27种组合,注意周四男+周四男是一个事件)或者云云(还有不少取法)……
和事佬这个时候一定站出来说了:哎呀,你看问题的角度不同,(即在不同的概率空间中)当然这个“概率”的值也就不一样了啦。但是我想说的是,如果“概率”真的变成了一个纯数学的概念之后,贝叶斯的概率推断和一个语义学游戏何异!概率问题就将变成一个具有“多义性”的逻辑游戏。很显然,这不仅违背直觉,也很令人,至少让本人不太舒服。
也因此,对于这类问题更深入的探讨就演变为了逻辑甚至哲学的探讨,变得再次脱离了这个世俗的世界。武汉大学哲学系的陈晓平教授甚至专门把“贝叶斯方法”和“休谟问题”整理在一起,出了一本厚厚的专著。
这本书涉及了很多问题,而其中最核心的问题还是由休谟引出的。休谟在《人性论》第一卷的《人类理解研究》(1758年)中谈到:“过去每天早上太阳从东方升起,所以明天早上太阳还会从东方升起。”“过去手指靠近火总被灼痛,因此下一次手指靠近火还会被灼痛。”他认为,这种简单的归纳推理,即“从过去的事情推论现在的事情”这种归纳没有“理性依据”,不过是人的“心理本能”。
他还给了一个论证:概括而言,首先一切推理只分两类,一类是解证的推理(英文用的是demonstrable argument,也就是现代逻辑学中的演绎推理),另一类便是经验推理(太阳和火的例子便是其中之一)。演绎推理只涉及观念间的关系而不涉及实际事物,是只通过理性的思想便可以获得的。(比如,如果我们承认一个前提“1+0=1”,那么我们将毫无疑问地推出“1+0+0=1”,这种“推出”的关系是毋庸置疑正确的)因此,演绎推理具有与具体事实无关的必然性。但归纳推理就不一定了,即使我们承认前提“昨天太阳升起了”,这个前提并不像“1+0=1”那样能够百分百推出“今天太阳升起了”这个命题的正确性。因此经验推理(归纳)具有与具体事实相关的或然性。
接着,休谟开始引入“因果关系”的概念:他认为,在进行经验推理的时候,由于所谓的“原因”和“结果”是两个完全独立、不同的对象,完完全全分离出来的单个对象绝对不具有另一个对象的状态和属性。因此在任一归纳推理中,前提与结论之间不存在任何必然性的关系。于是这么一来,麻烦就大了。因为这种论断也是违反直觉的,实际上根据休谟的说法,基本上我们日常生活中的大多数论证都是属于“经验推理”这一范畴的无效论证。
实际上,休谟凶残地、冷酷地指出:虽然“习惯就是人生的最大指导。”但这种指导终究不过是一种“本能或机械的力量。”也就是说,人类自以为傲的现代科学仍然不过是在本能构建下自我安慰的产物。休谟的这种否定并非一种世俗的否定,而是一种终极意义上的否定。
因此,他对于归纳法合理性的质疑等同于对现代科学合理性的质疑,这种质疑即使放在今天仍然是超时代的,也是哲学命题“永恒性”的体现:
我们可以把他的结论“归纳”为以下三点:(1)经验科学离不开归纳法(2)归纳法的合理性是不可证明的(3)因此,经验科学不存在合理性。
因此,休谟被认为是“怀疑主义”的代表,他的思想在崇尚科学的现代社会基本上是不入流的。然而这个问题恰恰是科学哲学理论中核心的核心。
如果我们能搞清楚这个问题,或许我们就能明白我们的那种做法:通过建立不同的样本空间,“归纳”得到迥异的不同概率值。这件事情究竟是合理的,还是多余的?是否有一种统一的办法来解释这种现象?(因为对不同的问题,可以有不同的样本空间的划分方法,这几乎是无穷无尽的,一个严谨的科学体系势必需要一个统一的规定和说明)
休谟曾经提出了这样8条原则来判断原因和结果:(1)原因和结果必须是在空间上和时间上互相接近的。(2)原因必须先于结果。(3)原因与结果之间必须有一种恒常的结合。构成因果关系的主要是这种性质。(4)同样的原因永远产生同样的结果,同样的结果也只能发生于同样的原因。(5)当若干不同的对象产生了同样的结果时,那一定是借着我们所发现的它们的某种共同性质。(6)两个相似对象结果中的差异,必然是由它们互相差异的那一点而来。(7)当任何对象随着它的原因的增减而增减时,那个对象就应该被认为是一个符合的结果。(8)最后一条原则:如果一个对象完整地存在了任何一个时期,而却没有产生任何结果,那么它不是那个结果的唯一原因,而还需要被其他可以推进它的影响和作用的某种原则所协助。
一般认为,前三条是主要的,后五条是附加的。虽然本人认为这种冗余的说法具有内在的循环论证(他自始至终没有证明因果与经验的关系,因果本因高于经验存在,然而经验的影子却无处不在),然而这8条原则确实值得引起我们的反思。
然而,贝叶斯学派的统计学家们对于“归纳”却多有自己独到的认识(与休谟的看法决然相反):这其中又牵扯到了极其繁多的逻辑问题,对此可以参阅哈金(Ian Hacking)关于改进下的“主观主义概率论”、以及他所强调的“给定事实后的概率”(即验后概率≠条件概率)的论证和说明。[13] 以及凯恩斯(John M. Keynes)关于“无差别原则”的论述(即所谓的如何划分一个“等概事件”,一个著名的关于此的悖论是1889年J. Bertrand提出在一个确定的圆里挑一条弦,问弦长大于内接等边三角形长度的概率。结果通过长度、角度和面积的均匀分布进行计算得出1/2,1/3,1/4三个答案,成为一个著名的悖论),还有便是贝叶斯方法中最为人诟病的“试验机制”:也即是先提出假设,如果与经验与假设相符就接受,不然就当做否定。但这个试验到底如何进行,假设如何提出?怎么通过经验修正假设?普莱斯(R. Price)在发表贝叶斯论文的时候就对此心存疑惑,并在他的论文里特意加了说明。(他认为贝叶斯的无差别假设存在一个逻辑的问题[14])实际还是那个生小孩的问题,划分是有序还是无序的?概率是1/3还是1/2?
最后,把休谟数百年前的问题放在概率论的背景下作最后的归纳:
1、 我们总喜欢对一个随机事件假设“独立重复试验”,但这合理么?根据何在?
2、 事件和事件之间真的存在所谓的因果关系么?(而不仅仅是时间的先后)如果存在的话又如何描述呢?
这两个问题,回答不了了。
注释:
[1] 实际上,一般常用的即是由X上全体开集生成的一个Borel代数,这个sigma-代数里有开集、有闭集、有半开半闭集合……有我们一般人思维能构建出的大多数集合。为了方便地使用“扩张”的思想,数学家们还定义了π系、λ系、半环、环等等……(与之相关的一个著名定理是1952年的Dynkin π-λ定理)
[2] 数学家们发现,即使是在[0,1]的实数域上,也会存在一些无法测量的集合。(它们的存在还偏偏非常多,远远多出日常生活的想象。这便是奇怪的数学世界的特性。)为此,我们需要把测度定义在严格的一类“可测集”上,一般也就是在一个sigma-代数上。
[3] 这条性质又叫做“可数可加性”。即独立事件的概率之和等于它们和事件的概率
[4] 比如对一个起始点和终点分别为a和b的直路[a,b],我们首先生成一个X,它包含所有形如[a,b]的直路。(注意,直路之间还可以组合,缩长缩短)然后我们认为一条直路[a,b]的长度μ([a,b])=b-a。于是我们就定义了一个测度空间。若如果我们认为长度不是b-a,而是a-b,(a-b)/2,(a2+b2)^(-1/2)等等......则就能够建立新的测度空间。
[5] 不可数意味着这个区间无法与自然数集N={1,2,…,n,…}建立1-1映射。(即康托发明的“等势”概念)
[6] 即无法“顺序”(递归)地进行求和:我们无法写出
[7] 在n-->∞的时候事件的期望“依测度收敛”,这是一种比Cauchy定义的数列收敛更弱的收敛。
[8] Bayes' Theorem in the 21st Century,Bradley Efron,Science 340, 1177 (2013); DOI: 10.1126/science.1236536
[9] 这个定理在概率论中得到严格证明依赖于Radon-Nikodym定理(1930)。Hans Freudenthal在1936年将其推广。
[10] 贝叶斯学派的统计学家并不关心这个假设是否绝对正确,它只要能“近似正确”,然后就可以通过获得更多的信息进行修正。
[11] 《数学之美番外篇:平凡而又神奇的贝叶斯方法》,刘未鹏, http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/
[12] 本例摘自Google研究员吴军的《数学之美》的第二章,“中文分词”。
[13] I. Hacking, Slightly More Realistic Personal Probability, Philosophy of Science, vol. 34(1967), page 311-325
[14] Bayes, T & Price,R. (1763) "An Essay towards Solving a Problem in the Doctrine of Chances", 转引自 E.S. Pearson and M. G. Kendall, Studies in the History of Statistics and Probability, Griffin, 1970, page 134, page 143