关于条件概率,全概率公式,贝叶斯公式

        今天看到关于贝叶斯公式的一个比较全面的应用,但是在看的时候突然发现自己以前对于贝叶斯公式的记忆已经模糊,故从头开始把概率论这些基本的公式全部重新学习一般,并记录下来,希望能以一个浅显易懂的方式表达出来。下面直接进入正题。

        首先说条件概率,我们知道现实中一件事情的发生可能会在不同的情况下,那么在某一种特定情况下事件发生的概率即为条件概率。比如一个城市中有N个人,其中女性为M个,在这个城市中色盲一共有x个,而在这些色盲中女性有y个,那么我们令事件 A={任选一个人为女性} ,B={任选一个人为色盲},则有P(A)=M/N, P(B)=x/N,那么我们就知道即是女性又是色盲的人的概率为P(AB) = y/N,那么在女性中色盲的人的概率就为(记为P(B|A))P(B|A) = y/M = P(AB)/P(A),即为在女性条件下为色盲的概率。其实通俗的理解就是AB事件共同发生的概率比上A事件发生的概率就是B事件在A事件条件下发生的概率。此时就是把A事件当做全集处理,要把A事件发生的概率量化到1,相应的AB事件发生的概率也要按比率调整。


有了条件概率,我们就可以计算全概率了。现实中,某种事情的发生可能在不同的情况下,我们继续上面的例子,比如说一个城市中一共有N个人,男性X个,女性Y个,其中在男性中是色盲的有a个,在女性中是色盲的有b个,那么我们想知道在整个城市中任取一个人是色盲的概率是多少,我们记P(A)={任选一个人是色盲},P(B)={任选一个人是男性},P(C)={任选一个人是女性},P(A|B) = {从男性中任选一个人是色盲},P(A|C) = {从女性中任选一个人是色盲},那么我们就有P(B) = X /N, P(C) = Y/N,P(A|B) = a/X ,P(A|C) = b/Y ,P(A) = (a+b)/(X+Y) = (a+b)/N  = a/X*X/N + b/Y*Y/N =P(A|B)P(B) + P(A|C) *P(C);于是我们就可以得出全概率公式的一般定义:

其实通俗的解释就是,一个事件A在很多情况下都会发生,那么我们想知道A在总体的事件下A发生的概率,但是呢我们又不能直接得到A在总体事件中的概率,但是我们知道在所有会发生A事件的子事件中A发生的概率,并且知道子事件发生的概率,那么加起来就是了。

有了全概率公式,我们就能得出一个事件A发生的总体的概率,然后再实际生活中,我们有时候不仅仅想要知道这个事情发生的整体概率,我们继续上面的例子,比如说我们知道一个人为色盲,但是我们不知道这个人是男的还是女的,那么我们怎么计算呢?或许这个问题貌似在现实生活中不太现实,那我们引用托马斯·贝叶斯(Thomas Bayes)同学的一段 wikipedia 上的简介:(摘自刘未鹏的博客

这就用到了贝叶斯公式求解,继续上面的全概率公式,在《All of Statistics》这本书中,给出了如下的定义:

继续色盲的那个例子,那么这个公式中B就代表为已知一个人现在为色盲,A一共有两种情况,A1为男性,A2为女性,P(A1|B)即为已知一个色盲那么他为男性的概率是多大,P(A2|B)即为已知一个色盲她为女性的概率。其中P(B)表示为任取一个人其为色盲的概率,我们称之为先验概率,也就是我们可以通过一些统计或者计算的方法计算出来的一个概率,而P(Ai|B)则称为后验概率,是需要我们去计算的,估计得概率。其实,所谓后验概率即为在事情已经发生的情况下我们要求其在某个因素下导致这个事情发生的概率。

关于先验概率与后验概率的区别,我觉得所谓先验就是我们在没有事情发生之前推测一件事情发生的概率,而后验概率则是已经有个事情或者因素、条件发生的情况下一件事情发生的概率,故称为后验。

下面对于贝叶斯公式应用举一个从别处抄来的小例子

将邮件分为三类,A1=spam,A2=low priority ,A3=high priority.从以前的经验中得到先验概率P(A1)=0.7,P(A2)=0.2,P(A3)=0.1.这三个的概率之和一定为1。设事件B为邮件中包含单词free(为啥是free,我也不知道,只是举个例子不要当真,也可以是democracy),我们可以古典概率模型计算P(B|A1)=0.9,P(B|A2)=0.01,P(B|A3)=0.01.当然这三个的和可能不为1,你知道原因么?言归正传,某天我收到一封邮件,发件人来自米国这个头号资本主义国家,这不是重点,重点是这封邮件包含了单词free,问这封邮件为spam的概率是多少?


也就是说你有0.995的成功率判定该邮件为spam,至此你已能运用贝叶斯公式进行计算了。

个人觉得关于贝叶斯这样的基本理解已经够用了,其余的可以根据需要再查相关资料就好了。


你可能感兴趣的:(数学)