统计学5-贝叶斯法则

贝叶斯

托马斯·贝叶斯(Thomas Bayes,1702-1761),18世纪英国神学家、数学家、数理统计学家和哲学家,概率论理论创始人,贝叶斯统计的创立者,“归纳地”运用数学概率,“从特殊推论一般、从样本推论全体”的第一人。【1】


统计学5-贝叶斯法则_第1张图片
TB.jpg

BTW,贝叶斯创立贝叶斯统计的本意,是要证明上帝的存在(步伟大的艾萨克·牛顿爵士的后尘),然而可能连他自己都没有想到的是,这一理论最终成为了人工智能和统计学赖以建立的“Holy Grail ”。

条件概率

直接介绍贝叶斯法则可能会让初学者有些茫然不知所措(比方说我。。。),让我们从贝叶斯法则的基础条件概率开始说起。

例如,假定人口总体的 1% 患癌。对一群人进行癌症检测,得到阳性检验测试结果的概率依赖于你是否具有某种特殊条件。如果具备条件,测试结果就是阳性的。

由此,我们设事件A和B:

  1. B:目标人患癌。
  2. :目标人不患癌。
  3. A:目标人癌症检验为阳性。
  4. :目标人癌症检验为阴性。

在实际的生产生活中,一些事件发生的概率往往是已知的,如人口总体中患癌的概率,这种事件的概率称为先验概率

通常事件并不像掷硬币和骰子一样是独立的。实际上,某个事件的结果依赖于之前的事件。被依赖事件可以理解为依赖事件的“因”,依赖事件是被依赖事件的“果”,例如这里,B(目标人患癌)就是被依赖事件,也就是“因”,而A(目标人癌症检测为阳性)就是依赖事件,是“果”。因为B事件发生了,才会有A事件发生。在B事件发生的情况下,A事件发生的概率就是条件概率

我们通过以下方式用公式表示两个事件的条件概率:


con_prop.png

在这个中,我们要表达的意思是:


dis.png

其中 |代表 "鉴于",∩ 代表 "和"。

  • 联合概率
    P(A∩B):称为联合概率。意思是事件A B同时发生的概率。在这个里,表示目标人患癌且检测结果为阳性。

  • 条件概率计算公式的变形:乘法公式
    P(A∩B)=P(B)P(A|B)
    利用这个公式把复杂概率分解成互不相容的简单事件概率:
    P(A|B)+P(|B) = 1

  • 由条件概率公式可得全概率公式
    P(A) = P(A|B) * P(B) + P(A|) * P()

贝叶斯法则

后验概率

后验概率和条件概率类似,都是描述在一个事件发生的情况下,另一个事件发生的概率。但是与条件概率的不同之处在于,它限定了目标事件为被依赖事件,而其中的条件为依赖事件,通常就是观测结果。 如果说条件概率是由因求果,那么后验概率就是由果求因。【2】

回到我们之前的:
在A事件(目标人癌症检测为阳性)发生的情况下,B事件(目标人患癌)发生的概率就是后验概率
P(B|A)

贝叶斯法则定义

贝叶斯法则就是由先验概率求后验概率的公式。

贝叶斯法则, 尽管它是一个数学公式,但其原理毋需数字也可明了。如果你看到一个人总是做一些好事,则那个人多半会是一个好人。这就是说,当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。 用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大【3】。

求解过程

我们将前面的问题完整化:
假定人口总体的 1%患癌。如果患癌,检测结果为阳性的可能性为 90%,如果不患癌,检测结果为阴性的可能性为 90%,在这种情景下,如果你的测试结果为阳性,患癌的概率是多少?

以下是问题求解过程的简图:


统计学5-贝叶斯法则_第2张图片
sol.png
  • 首先看图的左上角:
    事件C表示人口总体中患癌的概率(先验概率):
    P(C) = 0.01

  • 经过Test(癌症检测),发现:

  1. 患癌人群中,检验结果为阳性的概率:P(Pos|C):0.9
  2. 非患癌人群中,检验结果为阴性的概率:P(Neg|):0.9
  • 右图P(Pos|C) 为0.9
  • 右图P(Pos|)
    由上文乘法公式的推论,P(Pos|) = 1 - P(Neg|) = 0.1
  • 由条件概率计算公式:
    P(C,Pos) = P(Pos|C) * P(C) = 0.9 * 0.01 = 0.009 (图左下角红色部分)
    P(,Pos) = P(Pos|) * P() = 0.1 * 0.99 = 0.099(图左下角绿色部分)
  • 归一化
    因为P(C,Pos)和P(,Pos) 的和不为1,所以需要对前两个概率归一化,即分别求他们对和的比例。二者的和为紫色线内的部分。
    P(C|Pos) = P(C,Pos) / ( P(C,Pos) + P(,Pos) ) = 0.009/(0.009 + 0.099) = 0.083
    P(|Pos) = P(,Pos) / ( P(C,Pos) + P(,Pos) ) = 0.099/(0.009 + 0.099) = 0.917
  • 最终,我们通过先验概率求出了后验概率。
    P(C|Pos) = 0.083
    P(|Pos) = 0.917

specificity

特异度,如果不患癌,检测结果为阴性的可能性为 90%。

sensitivity

敏感度,如果患癌,检测结果为阳性的可能性为 90%。

【1】托马斯·贝叶斯
【2】后验概率与条件概率区别 这里作者为了强调后验概率和条件概率的区别,将条件概率狭义的理解为“由因求果”,不是很严谨,但是便于突出后验概率的特点。还请读者注意。
【3】贝叶斯公式

你可能感兴趣的:(统计学5-贝叶斯法则)