第三章 误判物理学和数学8.例证的信度

        第八节 例证的信度

概率(prior probability)

(指根据以往经验和分析得到的概率,如全概率公式,它往往作为“由因求果”问题的“因” 出现——译者注)

      吃饭的时候,约翰告诉玛丽 :“我们公司有个职员今天因盗窃罪被捕,但她自己说之前从未盗窃,以后也不会。”

      她之前从未偷窃的可能性有多大? 试着考虑她偷窃的先验概率,比如说考虑某个事件或特征的典型性或者代表性有多高。

    根据查理·芒格所言,约翰应该这样思考 : 如果每年你打算揪出10 个挪用公款的人,他们中有哪些人——运用特沃斯基和卡尼曼的基准比例资讯(base rate information) 理论——声称只犯过一回这样的错误? 而那些以前有前科,未来还打算再犯的人,他们又将会怎么说?根据公司的历史记录......他们通常会说 :“我从来没做过,以后也不打算做”.我们把他们革职了。这样做显得有些不近人情,但破坏行为总是具有传染性

      目击证人辨认或者 DNA 证据能够证明一个人有罪吗? 而医学检验呈阳性表明一个人已经患病了吗?

      在 18 世纪,英国数学家兼神甫托马斯·贝叶斯为如何评价证据的可靠性提出了一个基本的方法。法国数学家拉普拉斯把这种方法发展成为现代形式。贝叶斯原理使得在新证据出现后对结果的先验概率进行修正成为可能。如果我们把概率格式转换为频率格式将更易于使用。

      我们现在就来使用贝叶斯原理解释经典出租车问题,这也是他的现代版本,该问题最初是由心理学家丹尼尔·卡尼曼和阿莫斯· 特沃斯基共同提出的。

      约翰在法庭作证 :“我亲眼目睹了这起事故,出租车的颜色为绿色。”

      经过可靠的视力测试证明约翰在 10 次中有 8 次能正确辨认出绿色。即 10 次中有 8 次,当物体是绿色时,约翰准确地辨认出了“绿色”。当物体是蓝色时,10 次有 2 次约翰说成了“绿色”。这表明约翰在 10 次中有 2 次辨错了颜色。

    作为目击证人,约翰的可靠性有多高?目击者证词包含一定的不确定性。同时还要记住,任何观察的可靠度不仅仅依赖于观察者的可靠性(即使约翰有双敏锐的眼睛)还 要依赖于先验概率基础上观察的可靠度。

      首先我们问 : 该结果的先验概率为多少——在考虑新的证据前,某事件发生的概率是多少? 在考虑约翰的证词前,我们先来了解绿色出租车卷入事故的概率为多少? 假设蓝色出租车和绿色出租车的相对频率( 在特定时间段内一种颜色出租车的比率) 能够给我们提供关于事故的先验概率的信息,在出事时段中,蓝绿二色的出租车在所有出租车中所占比例各自为多少? 假设城里共有 100 辆出租车,90 辆蓝色,10 辆绿色。这表明肇事出租车为绿色的先验概率为10%。再考虑到约翰“绿色车”的证词,肇事出租车为绿色的后验概率(即在考虑到案件证据后)1有多高(参见表 5)?

图片发自App

(后验概率指引入新的信息,重新修正后得到的新的概率值,它与先验概率有着不可分割的联系,后验概率的计算要以先验概率为基础——译者注)

      如果100辆出租车中有10 辆为绿色,约翰 10 次中 8 次辨认正确,那他将能辨认出 8 辆绿色车。既然约翰有2 次辨认错误,把蓝色车说成绿色车,这表明他将在 90 辆蓝色出租车中把 18 辆误认为是绿色。 在约翰认定为绿色车的 26 辆车中,其实只有 8 辆是绿色的。这表明基于约翰的证词“ 绿色出租车”,  肇事汽车确为绿色的概率为 31%(8/26)。这样看来肇事车更有可能是蓝色。

      在约翰作证前,绿色出租车卷入事故中的先验概率为10%,而在他作证为“绿色车” 后,概率上升至 31%。

      “根据过去50 年来出租车出事的记录,从颜色的分布情况看,4 次中有3 次肇事的士为绿色。”

      不管蓝色或绿色出租车的分布频率,先验概率是历史事故的证据。在考虑新的证据前,我们所需要掌握的是能够解释事件的正确的代表性证据。

      在接收到新的代表性证据后,必须修正先验概率。问问自己 : 过去在相似情况下发生了什么?有理由修正事件的发生概率吗?情况或环境是否已经发生改变? 一个案例越是充满不确定性,则我们必须对先验概率投注更多的关注

证据的说服力有多强?

      在评价证据时,还要考虑由于巧合或者随机因素而影响到匹配概率。不妨考虑以下问题 : 一个随机挑选的人的外形轮廓与嫌疑犯的匹配概率有多高?比如说,在评价 DNA 证据时会发生随机匹配,两个完全不同的人却有着相同的 DNA 图谱。

    经过连续 5 天的搜查后,警方发现一直失踪的妇女被勒死了,约翰的兄弟比尔正在接受审讯。

    这里涉及到一个DNA 图谱的匹配问题。从犯罪现场取出的血液和组织的样本与比尔相符,成为了不利于比尔的法医证据。这个证据不是比尔留下的,就是其他人留下的。

      巧合性的匹配概率为多少?从犯罪现场发现的 DNA 图谱与一个随机选择的人两者之间的匹配概率有多高? 比尔与把证据留在现场的罪犯之间的图谱匹配概率为多少? 该图谱的罕见程度有多高? 该图谱越是少见,则比尔由于巧合而匹配的概率就越低。

    原告法医鉴定专家声称(通过对适当的参照组的频率分析后),如果比尔是无辜的. 即这种由于巧合而达到匹配的概率为1:20,000这表明每20,000个人中,只有1人的DNA 图谱与犯罪现场取出的相同。原告声称 :“除比尔外,20,000个人中只有 1人的图谱与犯罪现场的相同。所以,除比尔外,其他人留下该证据的概率为1:20,000。” 这个数据一摆出来,就对媒体和陪审团都产生了巨大的影响。比尔最终被定罪,被判无期徒刑。

      审判过程哪里出错了? 原告混淆了两个概率。“ 假定基因图谱相互匹配的基础上,比尔是无辜的概率”与“在假定比尔是无辜的基础上,基因图谱相互匹配的概率” 这两者是不一样的。原告应该说 :“除比尔外,其他人留下同犯罪现场一模一样的血液和组织的概率是1:20,000。”

      陪审团同样应该考虑比尔犯罪的先验概率( 在考虑法医证据前),判定比尔是杀人犯的概率并不能单单从法医的证据得出,还应该考虑其他证据。法医证据的意义常常依赖于其他证据。警方手里还有其他数据吗? 关于比尔的情况还了解多少? 他有不在犯罪现场的证据吗? 或者他靠近犯罪现场吗? 每一个证据都必须综合考虑,而不能孤立开来看至于比尔留下血液和组织样本的原因,也可能并非出于作案动机。

      在考虑法医证据前,根据已有的证据,陪审团预期法医搜集到的证据来源是比尔的概率为 10%( 反过来,比尔无辜的概率达到 90%)。 假设比尔是有罪的,匹配的概率将达到 1( 敏感度 100%,无假阴性问题)。 因为如果比尔是法医证据的来源,且实验室检验结果准确,他的 DNA 图谱将达 到百分百的匹配。把以上这些分析结果与随机匹配的概率1:20,000综合起来,则得出一个后验概率:比尔是法医证据来源人的概率为99.96%(0.1/0.100045)(参见表 6)。

图片发自App

      一种能够决定先验概率的方法就是提出如下问题 :凶手可能来自于什么样的群体?我们需要参照适当的对照群体进行预测。谋杀案发生在一个有 50 万人口的城市,假设这个城市的任何一个人都有作案的可能,其中一个是真正的罪犯,其他499,999人都是无罪的。我们预期大约有 25 个人能够与DNA 达到巧合性匹配。这表明,有 26 个人(25+ 罪犯) 有可能作案。既然比尔是26人中的一员,假设法医证据成立,他有罪的概率仅达到 3.8%。

      但事实真是如此吗? 它只有在所有人都有同等作案可能的情况下才成立。比如说,他们都有同等接近犯罪现场的可能。

      选择适当的参照群体也很重要。专家证人是如何预测随机匹配概率的? 拥有同一图谱的普遍性有多高? 随机匹配概率就真的意味着 这个图谱会在 2 万个人中只出现 一次吗?当然不. 计算出来的频率只是一种预期,不排除会发生预期过高或过低的错误

      在犯罪现场制造DNA证据要易于复制指纹(因为DNA 证据易于制造和歪曲)。在克劳迪娅·德雷伊富斯的《科学对话》中, 法医数学家查尔斯·布伦纳(Cha- rles Brenner)对辛普森案和DNA证据发表了如下看法:“从 DNA 的角度来看,辩护方的行为非常聪明 :他们宣称证据是人为制造的,他们运用的基本策略是 : 即使证据匹配,但也是别人移植上去的。他们并没有采取否认 DNA 匹配的策略。显然血液是相匹配的,他们也从来不否认这一点。”

    在辛普森案件审理中, 辩护律师宣称,1,000个虐妻者中杀妻的还不到1人。所以,辛普森虐待妻子的证据与本案毫无关联,不能作为案件审讯时的参考。但是我们考虑的并不是一个虐妻者杀害妻子的概率为多少,参照群体是那些被丈夫虐待并被杀害的妻子所以,与该案件相关的问题是 : 在丈夫虐待妻子同时妻子被害这一假设基础上,丈夫杀害妻子的概率为多少? 因为尼克·布朗·辛普森是被杀害了,而不仅仅是被虐待。

    约翰·艾伦·保罗斯 (John Allen Paulos) 在《数盲》 (Innumeracy )中表示,假定谋杀和虐待的事实合理,据以往事实显示,如果一个人虐待妻子或者女朋友,后者被杀害 了,80% 的时候,虐待者就是杀人犯。 但这并不表明虐待妻子或女朋友的人犯有谋杀罪的概率为 80%。这只是众多证据中需要考量的一个。

检测会出现错误吗?

    当然,一种错误就是假阳性, 还有一种 为假阴性。假阳性就类似于错误警报,而假阴性则相当于对实际效果的一个缺省。比如说,影响医疗检验结果和导致假阳性的因素包括 : 检验方法的临床准确度(同一些“标准相比)、病人准备情况、 医疗状况、药物治疗和实验室错误等。在搜集和处理样本、解释和报告检验结果的准确度上,都有可能会出现错误。

      约翰检查后发现在一个罕见疾病一栏呈阳性,该病例的死亡率达到 80%, 约翰很害怕。

    如果检查出来呈阳性,一个人(随机选择出来的,同约翰一样属于高危人群) 患这种病的几率有多大?

      医疗检验的预测价值取决于临床检验准确度和先验概率,或者检验对象中在某段时间内患病率的多少(流行率)。 临床准确度是由敏感度(指化验检查结果为“真阳性” 的百 分率。“敏感性”越接近 100%,其阳性结果越表明该病人的确患有病) 和特异性(指化验检查结果为“真阴性”的百分率。“特异性”越接近 100%,其阴性结果越表明该病人的确 没有患病)组成的。

      假设有10万人。患病率为 0.1%, 1,000 个人中有 1 人患病。在检查前,约翰患病的概率仅为 0.1%,有99.9% 的可能性不会患 病。如果该检验结果100% 准确,100 个人将会检验为阳性,而 99,900 人将会检测为阴性。这些都是先验概率。

    该检验有97% 的敏感度或者真阳性率。这表明 100 个人中有 97 个病人能够准确地检验出阳性。同样也表明100 个病人中有 3 人将被误诊为阴性(假阴性)。 该检验的特异性或真阴性率为 95%。 这表明 100 个正常 人将能准确检验出 95 人呈阴性,有 5% 的时候检验不正确。表明正常人中有 5%,即 4,995 人将被误诊为阳性(假阳性)。

      既然约翰被告知检验呈阳性,他需要知道的信息是检验结果呈阳性后患病人数的比例(真阳性), 以及检验呈阳性后没有患病人数的比例(假阳性)(参见表 7)。

图片发自App

考虑到以上真阳性的准确性(97/5,092),每 1,000 个 与约翰同属于高危群体的人中,有 19 人患有致命性疾病。  假设约翰检验呈阳性,他患上致命性疾病的概率为 1.9% 或更低。根据以上数据,在检验为阳性的 5,092 人中大多数为假阳性,健康人被误诊为病人

      如果一个被随机检测的人的测试结果呈阴性,那表示什么? 有 3 例假阴性和 4,905 例真阴性,意味着那个人 99.9%  的可能没有问题。

      贴上“检查为阳性” 的标签确实让人恐怖,但记住检查并不代表疾病。一个检查可能是假阳性。但什么是最糟的情况? 是假阳性——正常人被诊断为病人——还是假阴性——病人被诊断为健康的正常人?

      先验概率或者疾病的流行性越高,检验结果的可靠性就越高。相反,先验概率越低或者疾病越罕见,则检验结果可靠性越低。如果检测的是不常见的疾病,甚至一个高度准确的检验也会产生不甚可靠的结果,所以被检测对象属于高危人群的可能性不大。

      问问自己 : 在考虑某个病例的证据前,参照群体中患病概率为多少? 医疗检验的准确性有多高?

      以上思维过程同样有助于评价诊断性检验或者排除疾病程序的可靠程度。比如说,可以应用于诊断或排除乳腺癌、前列腺癌、结肠直肠癌、艾滋病或者毒品使用等程序方面。

      在评价测谎仪( 用于审查罪犯或者筛选出有罪的职员) 和识别系统的可靠性时,降低假阳性和假阴性的发生概率同样很重要

      在测谎仪测验中,会发生假阳性现象,有时无辜者被测试出在撒谎 ; 也会发生假阴性现象,不能测试出说谎的罪犯。

      在识别系统中,假阳性指在并不匹配的情况下,系统接受了一个匹配。假阴性指在达到匹配的时候,系统却没有识别出来

      评价DNA图谱证据的价值时,必须考虑到有可能发生假阳性这一事实。所以,负责比尔案件的陪审团还应该考虑假阳性的概率陪审团应该考虑如下问题 : 实验室对两个样 本的匹配报告出错的概率为多少? 匹配的报告并不意味着真正的匹配,错误也会发生。导致法医匹配的可能性包括污染物( 故意或者巧合)、 证据处理不当或者交换样本时发生错误等。比如说,在一起强奸案中,来自于休斯顿警察局犯罪实验室的技术人员告诉陪审团,他们发现该强奸犯的 DNA 与 一名男嫌疑犯相互匹配。该男子在 1999 年被判定有罪, 服刑 25 年。2002 年,休斯顿警察局部门确认DNA的来源并不是这位男子。

    在评价案例证据时,我们必须考虑先验概率、随机匹配成功的概率和假阳性发生的概率。

你可能感兴趣的:(第三章 误判物理学和数学8.例证的信度)