小丽是小区里有名的美女,不仅人长得漂亮而且非常的善良,隔壁老王喜欢小丽已经很久了。这一天是女神节,小王听说小丽很喜欢花,于是提前一天买了99朵玫瑰,并在女神节当天送给了小丽。小丽收到鲜花很高兴,当着小王的面把鲜花插在了自家后院的牛粪上,并对老王表示了感谢,当时的情景如图所示
看着自己心仪的女神当着自己的面把鲜花小心翼翼的插在了充满了营养的牛粪上,老王简直心花怒放,差点就想官宣俩人关系了,所幸理智战胜了荷尔蒙,老王决定回家跟自己的老铁商量一下,推测女神接受自己的可能性有多大。毕竟女神如此矜持的人,能在这个特殊的日子接受自己的鲜花,意义还是不一样的。
现在问题来了,女神喜欢自己吗?女神接受了自己的鲜花是否代表对自己有意思呢?所有的这些问题,我们都可以通过科学的计算手段算出来一个概率。如果我们把女神喜欢自己记为事件A,女神接受鲜花的事件记为B,那么我们想要知道的就是P{A/B},这就是本文要讲的重点,贝叶斯的概率问题。
贝叶斯所要解决的问题就是在有条件限制的情况下,求取某一事件发生的概率。例如你去理发店理发,有可能是发型总监给你服务,也有可能是新来的实习生给你服务。发型总监给你服务,你的满意度为99%,实习生给你服务,你的满意度可能只有90%。假定你是第一次去这家理发店且随机指定了一个人给你服务,结果你很满意,那么求发型总监给你服务的概率或者实习生给你服务的概率这个问题就属于贝叶斯分类问题。
在贝叶斯提出了贝叶斯定理之前(文章是他死后由他朋友帮忙整理并发布的),人们对于概率问题已经有了一定的认知基础,但是都是解决正向问题。例如桶里有10只球,其中黑球7只,白球3只。现在蒙上眼睛任意摸出一只球,球摸出黑球的概率。大家应该都知道答案是0.7.
答案没毛病,算法也很简单。但是贝叶斯却有了新的想法,假如一开始我并不知道里面黑球和白球的数目,那么我能不能单从每次摸出的球的颜色来反向判断,里面有多少黑球和多少白球呢?这就是贝叶斯的想法的由来,也是贝叶斯对统计推理学作出的突出贡献,即贝叶斯首次在统计学中提出了‘逆概念’这种思想,如图所示。
让贝叶斯万万没想到的是,当初只是为了解决‘逆概率’这个问题而发的论文,会对后来的概率界产生巨大的影响。可以说,所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别是在最近大火的机器学习领域,贝叶斯更是必不可少的技术手段。
喜欢看电视的朋友,尤其是90年代的港台片中经常会出现这样一个桥段,就是一个坏人由于各种意外而进了医院,然后在例行检查的时候发现得了绝症。悔恨、不甘还有懊恼的情绪围绕在这人的内心,最后由于人之将死其言也善,这个坏人终于承认了自己以前犯下的错误并尽可能的对主人公进行了弥补以获取主人公的原谅。
就在大家皆大欢喜的时候,医生又进来了并告诉病人之前的检查出了问题,要重新检查,然后果不其然身体一切正常,还能向天再借50年。。。
每次看到这些桥段,你一定会说这都是一些老掉牙的剧情,毫无新意,现在医学如此发达,怎么会出现这么低级的误诊?其实真实情况恰恰相反,在医学检测中有一对术语叫做‘假阳性率’和‘假阴性率’。假阳性的意思就是某人没有疾病但是检测结果是有病;假阴性正好相反,某人患有疾病但是检测结果是没有病。
这里引用网上说的最多的例子,关于HIV的检测。关于HIV的检测,准确率可以高达99%,这是不是意味着检测结果足够可靠呢?假设某种疾病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。现有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?
具体的计算过程,我们会在后面的章节给出,这里可以先行透漏答案,通过这次体检,判断有没有得病的概率只有1.98%。也许你要问了,检测准确率这么低,那还检测做什么?其实这种检测一般分为好几轮,层层筛选后,概率自然就提高了,不过这已经超出了本文的讨论范畴,就此打住。
贝叶斯听起来就显得很高大上,那我们不妨换个说法,先从条件概率谈起。条件概率是概率论中一个非常重要且常见的概念,条件概率通常记为P(B/A),表示在事件A发生的情况下,事件B发生的概率。
现在问题来了,有人会问,事件A发生的情况下事件B发生的概率,这与事件A和事件B同时发生有和区别?结合第一章的内容,我们通过图示的方法看一下他们的区别,如图所示
从上图不难看出,同时发生事件与条件概率事件最大的区别就是样本空间的不同。事件A和事件B同时发生这一现象的样本空间是某个试验的所有可能结果;而对于条件概率,事件A发生的情况下,事件B发生的样本空间是某次试验的所有和A有关的结果。下面我们用几个例子佐证这一点。
例1 小明和小花两人投掷筛子,每人各投掷一次,观察出现的数字组合情况。设事件A为至少有一次出现数字‘6’,事件B为两次投掷的数字相加之和为11,求(1)事件A和事件B同时发生的概率。(2)事件A发生的情况下,事件B发生的概率。
解题思路:对于问题(1),首先我们列出两个人投掷筛子的所有可能组合,如图所示:
上图是小明和小花各投掷一次筛子的样本空间
事件A和事件B同时发生的概率
显然
对于问题(2),题目要求在事件A发生的情况下,事件B发生的概率,此时的样本空间已经由原来的试验所有结果变成了符合A的条件的结果,如图所示
上图为事件A发生的情况下事件B发生
如图所示,彩色的图片即为问题(2)的样本空间,显然,在事件A发生的情况下事件B发生的概率为
问题(2)里面,事件B正好全部包含在了事件的之内,如果把事件B改为两次投掷的数字之和相加为7,结果会怎样呢?如图所示
上图为事件A发生的情况下事件B发生
如图所示,事件B有6种组合形式,但是,‘在事件A发生的情况下事件B发生’的情况依然只有2种组合形式,因此结果仍然是2/11.
上即为事件A发生的条件下事件B发生的概率。设试验的基本事件总数为n,事件A包含的所有情况数量为m(m>0),事件AB包含的情况数量为s,则有
关于贝叶斯公式还有许多其他的性质和应用,例如乘法定理、例如与全概率的关系等。如果大家对概率方面的知识感兴趣,可以持续关注作者的博客,作者最近在写一本关于机器学习中的概率方面的书籍,欢迎大家随时关注并提出宝贵意见!
力求用最通俗的语言解释数学问题是作者不懈的追求!