概率论札记 - 2 - 用贝叶斯定理来讨论“医疗诊断的可靠性到底有多少”


只有愚蠢的人才会相信眼睛看到的。
——安·兰德

故事要从一道贝叶斯定理的简单习题讲起。大意是艾滋病患病率为万分之一,误诊率为5%,患有艾滋病者被诊断出来的概率为99%,请问在这样的设定下如果你被诊断为艾滋病阳性,那么你患艾滋病的概率是多少,原题如下——

Problem Denoted blood is screened for AIDS. Suppose the test has 99% accuracy, and that one in ten thousand people in your age group are HIV positive. The test has a 5% false positive rating, as well. Suppose the test screens you as positive. What is the probability you have AIDS? Is it 99%?

Solution: E_1=”test positive”, E_2=”test negative”. A_1=”You have AIDS”, A_2=”You don’t have AIDS”. Now we know P(E1|A1)=99% , we need to find P(A1|E1) . Since “one in ten thousand people in your age group are HIV positive”, P(A1)=1/10000 .”5% false positive rating” means P(E1|A2)=5% . By Bayes’ Theorem

P(A1|E1)==P(E1|A1)P(A1)P(E1|A1)P(A1)+P(E1|A2)P(A2)99%×11000099%×110000+5%×9999100000.198%

Note: 是不是看起来结论很不可思议?细细想来就知道是合理的,原因在于 5% 的false positive rating实在是有点高。粗略估计一下,9999个非艾滋病患者里大约会有500个被查出来有艾滋病,而实际上10000个人里大约1个,这个人有99%可能性会被查出来,也就是说这501个人里大约只有一个真正的艾滋病患者。所以在这个故事里,就算被查出了艾滋阳性,患有艾滋病的几率依然只有千分之二左右。

讨论:联想到实际医疗中的误诊,逻辑上说,误诊可以简单分为两种——没病的看成有病了,或者有病的没有看出来。如果我们简单把前者定义为误诊,即定义误诊为“把没病的诊断成有病”,那么上面这道题目其实是在计算艾滋病诊断成阳性的可靠性,而题目中的误诊率是 5% ,这样大的误诊率居然将诊断的可靠性降到了一个极小的数字——千分之二。我们如果将模型简化,假设“有某病且能诊断出来”的概率固定为99%,那么很显然诊断的可靠性主要由两个数据决定——(1)误诊率: P(E1|A2) 。(2)发病率: P(A1)
(1)让我们把 P(E1|A2) 调节得更小一点,比如万分之一,那么 P(A1|E1) 就会变成

P(A1|E1)==P(E1|A1)P(A1)P(E1|A1)P(A1)+P(E1|A2)P(A2)99%×11000099%×110000+110000×99991000049.8%

也就是说对于一个发病率为万分之一的病来说,要让诊断结果的可靠性超过百分之五十,它的误诊率需要低于万分之一才行。
(2) 如果一个病是常见病,如感冒,拉肚子等等,它的发病率比较高,那么这个时候我们看看诊断的可靠性是怎样的,比如在某流行性感冒发病季节。假设 P(A1)=1/10 , 误诊率为 1%
P(A1|E1)==P(E1|A1)P(A1)P(E1|A1)P(A1)+P(E1|A2)P(A2)99%×11099%×110+5%×91069%

在这种情况下,诊断的可靠性才能勉强到七成。
直观地说,一种病越常见,且它的误诊率需要远低于发病率,这时的诊断结果才能足够靠谱。在最后七成可靠性的例子里,我采用的误诊率约为发病率的十分之一,实际情况可能会更低,所以通常情况下感冒发烧这种病的诊断可靠性是较强的。

在这个故事里,贝叶斯定理告诉我们一个略微有些“反常识”的道理:即使误诊率从数字上看已经很低了,诊断结果的可靠性也依旧无法保证足够高,诊断可靠性受到发病率的约束。

你可能感兴趣的:(Probability)