《商务与经济统计》学习笔记(四)--贝叶斯定理之理解

作为一个纯正的工科生,虽然学过概率论、随机信号、信号检测等与统计学理论相关非常强的课程,对于贝叶斯公式也用过很多次了,不过有时候仍然不能深刻通俗的理解运用它,成了代公式的机器了。
贝叶斯定理是什么
贝叶斯定理是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出得重要概率论理论。以下摘一段 wikipedia 上的简介:

所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有 N 个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆向概率问题。

贝叶斯公式是怎么来的?
使用 wikipedia 上的一个例子:

一所学校里面有 60% 的男生,40%的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?

在这里,我们不妨把问题重新叙述成:你在校园里面随机游走,遇到了 N 个穿长裤的人(仍然假设你无法直接观察到他们的性别),问这 N 个人里面有多少个女生多少个男生。
计算一下:
假设学校里面人的总数是 N个。60% 的男生都穿长裤,于是我们得到了穿长裤的(男生)的个数为:
N × P ( 男 生 ) × P ( 男 生 穿 长 裤 ∣ 男 生 ) N \times P(男生) \times P(男生穿长裤|男生) N×P()×P(穿)(其中 P(男生) 是男生的概率 = 60%,这里可以简单的理解为男生的比例;P(男生穿长裤|男生)是条件概率,即在男生这个条件下穿长裤的概率是多大,这里是 100% ,因为所有男生都穿长裤)。
40% 的女生里面又有一半(50%)是穿长裤的,于是我们又得到了 穿长裤的(女生)为:
N × P ( 女 生 ) × P ( 女 生 穿 长 裤 ∣ 女 生 ) N \times P(女生) \times P(女生穿长裤|女生) N×P()×P(穿)加起来穿长裤的学生一共是 N × P ( 男 生 ) × P ( 男 生 穿 长 裤 ∣ 男 生 ) + N × P ( 女 生 ) × P ( 女 生 穿 长 裤 ∣ 女 生 ) N \times P(男生) \times P(男生穿长裤|男生)+ N \times P(女生) \times P(女生穿长裤|女生) N×P()×P(穿)+N×P()×P(穿)其中有 N × P ( 女 生 ) × P ( 女 生 穿 长 裤 ∣ 女 生 ) N \times P(女生) \times P(女生穿长裤|女生) N×P()×P(穿)个女生。两者一比就是你要求的答案。
下面我们把这个答案形式化一下:我们要求的是 P(女生|穿长裤的学生) (穿长裤的人里面有多少女生),我们计算的结果是 N × P ( 女 生 ) × P ( 女 生 穿 长 裤 ∣ 女 生 ) N × P ( 男 生 ) × P ( 男 生 穿 长 裤 ∣ 男 生 ) + N × P ( 女 生 ) × P ( 女 生 穿 长 裤 ∣ 女 生 ) \frac{N \times P(女生) \times P(女生穿长裤|女生)}{N \times P(男生) \times P(男生穿长裤|男生)+ N \times P(女生) \times P(女生穿长裤|女生)} N×P()×P(穿)+N×P()×P(穿)N×P()×P(穿)容易发现这里校园内人的总数是无关的,可以消去。于是得到
P ( 女 生 ) × P ( 女 生 穿 长 裤 ∣ 女 生 ) P ( 男 生 ) × P ( 男 生 穿 长 裤 ∣ 男 生 ) + P ( 女 生 ) × P ( 女 生 穿 长 裤 ∣ 女 生 ) \frac{P(女生) \times P(女生穿长裤|女生)}{P(男生) \times P(男生穿长裤|男生)+ P(女生) \times P(女生穿长裤|女生)} P()×P(穿)+P()×P(穿)P()×P(穿)
式中的 长裤 和 男生/女生 可以指代一切东西,所以其一般形式就是:
P(A|B) = P(B|A) * P(A) / [P(B|A) * P(A) + P(B|~A) * P(~A) ]
收缩起来就是:
P(A|B) = P(BA) / P(B)
其实这个就等于:
P(A|B) * P(B) = P(BA)

那么贝叶斯定理就是:
贝叶斯定理是关于随机事件 A 和 B 的条件概率:
在这里插入图片描述
其中P(A|B)是在 B 发生的情况下 A 发生的可能性。

在贝叶斯定理中,每个名词都有约定俗成的名称:

  • P(A)是 A 的先验概率,之所以称为“先验”是因为它不考虑任何 B 方面的因素。
  • P(A|B)是已知 B 发生后 A 的条件概率,也由于得自 B 的取值而被称作 A 的后验概率。
  • P(B|A)是已知 A 发生后 B 的条件概率,也由于得自 A 的取值而被称作 B 的后验概率。
  • P(B)是 B 的先验概率,也作标淮化常量(normalizing constant)。

你可能感兴趣的:(#,数据分析—统计学知识)