条件概率的著名谬论

条件概率的著名谬论

条件概率的谬论是假设 P(A|B) 大致等于 P(B|A)。数学家John Allen Paulos 在他的《数学盲》一书中指出医生、律师以及其他受过很好教育的非统计学家经常会犯这样的错误。这种错误可以通过用实数而不是概率来描述数据的方法来避免。

P(A|B) 与 P(B|A)的关系如下所示:

P(B|A)=P(A|B)P(B)/P(A)

下面是一个虚构但写实的例子,P(A|B) 与 P(B|A)的差距可能令人惊讶,同时也相当明显。

若想分辨某些个体是否有重大疾病,以便早期治疗,我们可能会对一大群人进行检验。虽然其益处明显可见,但同时,检验行为有一个地方引起争议,就是有检出假阳性的结果的可能:若有个未得疾病的人,却在初检时被误检为得病,他可能会感到苦恼烦闷,一直持续到更详细的检测显示他并未得病为止。而且就算在告知他其实是健康的人后,也可能因此对他的人生有负面影响。

这个问题的重要性,最适合用条件机率的观点来解释。

假设人群中有1%的人罹患此疾病,而其他人是健康的。我们随机选出任一个体,并将患病以disease、健康以well表示:

P(disease) = 1% = 0.01 and P(well) = 99% = 0.99. 假设检验动作实施在未患病的人身上时,有1%的机率其结果为假阳性(阳性以positive表示)。意即:

P(positive | well) = 1%,而且P(negative | well) = 99%. 最后,假设检验动作实施在患病的人身上时,有1%的机率其结果为假阴性(阴性以negative表示)。意即:

P(negative | disease) = 1%且P(positive | disease) = 99%。现在,由计算可知:

是整群人中健康、且测定为阴性者的比率。

P(positive|disease) = 99% 是整群人中得病、且测定为阳性者的比率。

是整群人中被测定为假阳性者的比率。

是整群人中被测定为假阴性者的比率。

进一步得出:

是整群人中被测出为阳性者的比率。

P(disease|positive) = 50% 是某人被测出为阳性时,实际上真的得了病的机率。

这个例子里面,我们很轻易可以看出 P(positive|disease)=99% 与 P(disease|positive)=50% 的差距:前者是你得了病,而被检出为阳性的条件机率;后者是你被检出为阳性,而你实际上真得了病的条件机率。由我们在本例中所选的数字,最终结果可能令人难以接受:被测定为阳性者,其中的半数实际上是假阳性。

例如关键词检测的性能:

关键词检测模块性能EER=% 假设所有测试关键词有10k条。实际关键词占比% 实际为非关键词被错检测为关键词的条数 实际为关键词被检测为关键词的条数 所有检测为关键词的条数中,真正为关键词的比例%
30 5 2850 350 10.94
30 7 2790 490 14.94
30 9 2730 630 18.75
30 11 2670 770 22.38
20 5 1900 400 17.39
20 7 1860 560 23.14
20 9 1820 720 28.35
20 11 1780 880 33.08
15 5 1425 425 22.97
15 7 1395 595 29.9
15 9 1365 765 35.92
15 11 1335 935 41.19
10 5 950 450 32.14
10 7 930 630 40.38
10 9 910 810 47.09
10 11 890 990 52.66
5 5 475 475 50
5 7 465 665 58.85
5 9 455 855 65.27
5 11 445 1045 70.13
1 5 95 495 83.9
1 7 93 693 88.17
1 9 91 891 90.73
1 11 89 1089 92.44

 

你可能感兴趣的:(条件概率的著名谬论)