因果关系 | 之,贝叶斯网络

谁能直面矛盾,谁就能触摸现实。-弗里德里希·迪伦马特


在写上篇文章的时候,我以为因果关系科学这么学术、枯燥的话题,没有太多东西可以写,看起来我错了......这个话题不但可以分成上下集来写,还可以是一、二、三集,甚至更多。所以,今天我们继续因果关系的话题。

01

概念

如题,什么是贝叶斯网络?

贝叶斯网络(bayesian network),又称信念网络(belief network)或是有向无环图模型(directed acyclic graphical model),是一种概率图型模型。

贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一。从1988年由Pearl提出后,已经成为近几年来研究的热点.。

一个贝叶斯网络是一个有向无环图(directed acyclic graph, DAG),由代表变量结点及连接这些结点有向边构成。结点代表随机变量,结点间的有向边代表了结点间的互相关系(由父结点指向其子结点),用条件概率进行表达关系强度,没有父结点的用先验概率进行信息表达。

结点变量可以是任何问题的抽象,如:测试值,观测现象,意见征询等。适用于表达和分析不确定性和概率性的事件,应用于有条件地依赖多种控制因素的决策,可以从不完全、不精确或不确定的知识或信息中做出推理。

我们稍微介绍一下Bayes。

托马斯·贝叶斯(Thomas Bayes,1702-1761),18世纪英国神学家、数学家、数理统计学家和哲学家,概率论理论创始人,贝叶斯统计的创立者,“归纳地”运用数学概率,“从特殊推论一般、从样本推论全体”的第一人。

据记载,他曾经是一位长老会牧师,但看上去更像个数学怪才。身为英格兰教会的反对者,他不能到牛津大学或剑桥大学学习,因而在苏格兰大学接受了高等教育。也许因为这样,他在那里学到了许多数学知识。回到英格兰后,他继续探索数学领域,并组织了一个数学讨论圈子。

在他去世后,1763年由理查德·普莱斯(Richard Price)整理发表了贝叶斯的成果《An Essay towards solving a Problem in the Doctrine of Chances》,提出贝叶斯公式。

他对统计推理的主要贡献是使用了"逆概率"(inverse probability)这个概念,并把它作为一种普遍的推理方法提出来。贝叶斯定理原本是概率论中的一个定理,这一定理可用一个数学公式来表达,这个公式就是著名的贝叶斯公式。

托马斯·贝叶斯本人大概不会想到,他在18世纪50年代推导出的公式有一天会被用来识别患难者的身份。

02

案例一

我们来讲述一个悲伤的故事。应该有很多人还记得这个事件,包括我在内。

2014年7月17日,马来西亚航空公司飞往吉隆坡的MH17航班从阿姆斯特丹的史基普机场起飞。令人痛心的是,这架飞机没能抵达目的地。起飞3小时后,飞机飞越乌克兰东部上空,被一枚俄罗斯制造的地对空导弹击落。机上的298人,包括283名乘客和15名机组人员全部遇难。(默哀)

7月23日,第一批遇难者遗体抵达荷兰的那天,后来被荷兰政府确定为全国哀悼日。

对于位于海牙的荷兰法医研究所(NFI)的调查人员来说,7月23日则是倒计时开始的日子。他们的工作是尽快明确患难者遗体的身份信息,将他们送回亲人身边安葬。时间紧迫,因为分析结果一天不出来,遇难者家属就要继续痛苦一天。

调查人员面临着许多困难。尸体被严重烧毁,许多尸体由于不得不使用防腐剂储存,因此,DNA信息也遭到了破环。此外,由于乌克兰东部是战区,法医专家只能不定时地进入坠机地点附近的有限范围内搜查。在长达10个月的时间里,不断有新的遗体被发现并送至法医研究所。

而最大的困难是,调查人员没有遇难者DNA的记录,原因很简单,遇难者不是罪犯。他们必须依靠与遇难者家庭成员DNA的部分匹配来确定遇难者的身份。

幸运的是,法医研究所的科学家有一个强大的工具,这个工具名为“波拿巴”,它是目前最先进的遇难者身份识别程序。该软件是由荷兰奈梅亨市拉德堡德大学的一个研究小组于2000年年中开发的。

那么,波拿巴软件与贝叶斯网络有什么关联呢?波拿巴软件进行自动化推理的这一工具的理论基础,就是贝叶斯网络。

事实上,贝叶斯网络影响着我们生活的方方面面,只是我们平时没有留意过。

贝叶斯网络目前应用在模拟计算生物学(computational biology)与生物信息学(bioinformatics)基因调控网上(gene regulatory networks)、蛋白质结构(protein structure)、基因表达分析(gene expression analysis)、医学(medicine)、文件分类(document classification)、信息检索(information retrieval)、决策支持系统(decision support systems)、工程学(engineering)、游戏与法律(gaming and law)、数据结合(data fusion)、图像处理(image processing)等。

我们看到上面提到了游戏,经常玩游戏的人一定不陌生Xbox,游戏中会对你的技能水平进行排名,这里所用的算法就是贝叶斯网络。

03

案例二

再举一个和我们生活相关的例子。疾病。

这个例子我之前在不同的文献中看到过很多次,虽然版本与要阐述的主题略有不同,但分析过程都是一样的。

想象一下,假设你去做体检,想检查一下自己是否得了某种疾病,而体检结果是阳性的。那么,你得这种疾病的可能性有多大?

等一下,L小姐,你的问题是不是问错了?检查结果是阳性,不是确诊了吗?怎么你还在问可能性?

如果你读到这里,问了这样一个问题,那么恭喜你,你对疾病(科学)的认识非常深入,至少比大多数人深入。

为了更详细地阐述这个问题,我们把案例具体化。一位40岁的女性做了乳房X光检查,想知道是否得了乳腺癌,检查结果呈现为阳性。那么,她应该在多大程度上相信这个结果?她应该做手术吗?

我们需要几组数据。按照先验概率,对于一个典型的40岁女性来说,她在下一年患乳腺癌的概率约为1/700;根据乳腺癌检测联合会(BCSC)的数据,对于40岁的女性来说,乳房X光检查的敏感度为73%;根据BCSC的数据,40岁女性做乳房X光检查的假阳性率约为12%。

这次,不得不引出一个公式,这也是第一次在我的文章里运用公式。它就是贯穿全文的贝叶斯定理。

P(A|B)=P(A)P(B|A)/P(B)

根据这个案例,公式需要稍微做个变形。D代表疾病,T代表检测。“似然比”(likelihood ratio)由P(T|D)/ P(T)给定。

我们需要得到的答案方程应该是:(D的更新概率)=P(T|D)=(似然比)x (D的先验概率)

健康女性的数量远多于患乳腺癌的女性。事实上,在700名女性中,平均只有1人患有乳腺癌,另外699人则未患乳腺癌。因此,随机选择1名女性进行检测,则其得到阳性结果的概率应该更容易受到那699名未患乳腺癌的女性的影响,而更少地受到那一个患乳腺癌的女性的影响。

在数学上,加权平均值的算法是:P(T)=(1/700)x(73%)+(699/700)x(12%)≈12.1%。

公式所表达的是,700名女性中只有1人有73%的可能性得到阳性检查结果,另外699名则只有12%的可能性得到阳性检测结果。

似然比为:73%/12.1%≈6

我们已经知道,其先验概率是1/700,因此其更新概率是6x1/700≈1/116。也就是说,这名女性在拿到阳性检查结果的前提下,她患有癌症的概率还不到1%。

这一结论令人吃惊。

我们对这一结果惊讶源于对前向概率和逆概率的认知偏差,即认为前者的得出经过了深入研究,而后者的得出则 是涉及个人的主观决策。

2009年,美国预防服务特别小组建议40岁的女性不应该每年进行乳房X光检查,因为阳性检查可能是虚惊一场,让许多女性产生了不必要的恐慌,并忙于寻求获得不必要的治疗。然而,这种感知和现实之间的冲突,还是让人们对这一建议提出了强烈抗议,因为大多数人并不了解这项提议背后的科学事实。

这里必须要补充一点的是,如果一名40岁女性本来就是携带乳腺癌症的遗传基因,那么情况截然不同——此人在第二年会有1/20的可能性患乳腺癌,其得到阳性检测结果的概率将升至1/3。

如何知道自己有没有这项疾病的遗传基因呢?需要看看你的家族病史。关于遗传率这个话题,我们在《关于基因,我们还需要知道这些》阐述过,文中更多的是概念性的内容,并未罗列遗传率清单。如果你想知道的话,乳腺癌的遗传率平均值为53%。

04

总结

最后,用理查德·普莱斯的这段话,结束今天的文章。确切来说,是一封信,是他在发表贝叶斯的文章时,写给杂志社的一份推荐信。

“我的目的是要说明我们为什么要相信事物的形成自有其固定法则,从而说明我们为什么要相信这个世界的建构一定是某种具有高度智慧和力量的因导致的果,进而证实作为那个最终的因的上帝的存在。

不难看出,本文所解决的逆向问题可以更直接地服务于这一目的,因为它清晰准确地告诉我们,在任何事件以某种特定的顺序发生或事件重复发生的情况下,为什么我们应该认为这种秩序或重复发生是源于某个自然稳定的因或规则,而不是源于任何偶然。

-THE END-

你可能感兴趣的:(因果关系 | 之,贝叶斯网络)