贝叶斯概率学习笔记

条件概率

之前发现自己不是很能记住条件概率的公式,然后上了课明白了可以这样:

贝叶斯概率学习笔记_第1张图片

上面这个例子,要求的是在C条件下A发生的概率。怎么说好呢,其实条件概率基本的定义我是明白的,就是考虑的样本空间发生改变了嘛,但我没想到可以用这点来记忆,唉。也就是说,P(C)作为分母,其实就是\Omega(C)的意思。嘛,说到底就还不是以概率为考虑对象,而是以概率的定义作为考虑对象。

独立事件

P(A|C)P(C)=P(A\cap C)\Rightarrow P(A)P(C)=P(A\cap C)

就相当于这个公式变形后的进一步变形(因为A,C独立,所以P(A|C)的|就没有了)。 

条件概率使用

关于条件概率,我们能做的最神奇的一件事情就是,将条件颠倒过来计算其所依赖事件的概率。也就是说,我们可以通过P(A|B)计算出P(B|A)。

举个例子,假设你正在给一家色盲矫正眼镜公司的客服代表发送电子邮件。这款眼镜有点贵,于是你在邮件中说自己担心眼镜可能不起作用。客服代表回复说:“我也是色盲,我自己也有一副,效果非常好!”我们想知道这位客服代表是男性的概率,但是除了工号之外,这位客服代表没有提供任何其他信息。那么,怎样才能算出这位客服代表是男性的概率呢
我们知道P(色盲|男性)=0.08,P(色盲|女性)=0.005,但P(男性|色盲)该如何确定呢?

——威尔·库尔特的《趣学贝叶斯统计:橡皮鸭、乐高和星球大战中的统计学》

下同。

贝叶斯概率学习笔记_第2张图片

贝叶斯定理

贝叶斯定理就是依据条件概率推出来的。不过让我们先从朴素贝叶斯开始写起。

朴素的贝叶斯思维

所谓贝叶斯推理,是指我们在观察到一些数据后,更新自己对这个世界的信念的过程。
一天晚上,你突然被窗外的一道亮光惊醒。你从床上跳起来,向外望去,发现天空中有一个碟形的庞然大物。你从来都不相信会遇见外星人,但现在你完全被外面的景象迷惑了。你发现自己在想:这难道是不明飞行物(unidentified flying object,UFO)吗?!贝叶斯推理就是这样一种思维过程:在遇到一种情况时,你会做出概率假设,然后根据这些假设更新你对这个世界的信念。在UFO这个情景中,你已经经历了一个完整的贝叶斯分析过程,因为你:(1) 观察到了数据;(2) 做出了一个假设;(3) 根据观察到的数据更新了自己的信念。

(1)观察数据

在这个例子中,数据是:
·窗外的一道亮光;
·一个碟形物体在空中盘旋。
根据经验,你会把窗外的景象描述为“令人惊讶的场景”,用概率的术语表示,可以将它写为:P(窗外出现亮光,天空中有蝶形物体)=很小
如何确定这个概率呢?现在,我们使用的是直觉,也就是自我感觉到的这件事发生的可能性

先验信念和条件概率

先验信念是我们根据一生的经验(也就是观察到的数据)建立起来的信念集合。你相信太阳会升起,因为自你出生以来太阳每天都会升起(当然,在阴雨天,你看不见太阳升起)。如果没有先验信念,我们每天晚上睡觉时都会害怕明天的太阳可能不会升起。
先验信念表示,在看到窗外有明亮灯光的同时看到一个碟形物体,这在地球上很少见。但如果你生活在一个遥远的星球上,那里有大量的飞碟且经常有星际访客,那么在天空中同时看到亮光和碟形物体的概率就会大很多。
在公式中,先验信念写在数据后面并用“|”与数据隔开,就像下面这样:
P(窗外出现亮光,天空中有碟形物体|地球上的经验)=很小
这个等式可以理解为:“根据我们在地球上的经验,在天空中同时看到亮光和碟形物体的概率很小。”这个概率结果被称为条件概率(conditional probability),因为计算某一个事件发生的概率时,以另一个事件的存在为条件。在这种情况下,我们会根据经验来调整观察到的事件的概率。

以多重信念为条件

如果有一个以上的变量会显著影响概率,那么我们可以添加一个以上的先验信念。假设今天是特定节日,根据经验,你知道在这天放烟花很常见。根据你在地球上的经验和今天是特殊的日子,在天空中看到亮光的概率不是完全没有,甚至那个碟形物体也可能与某个烟花表演有关。因此,你可以将这个等式改写为:P(窗外出现亮光,天空中有碟形物体|特定节日,地球上的经验)=小。对比这两种情况可以发现,条件概率从“很小”变成了“小”。

在实践中假设存在先验信念

在统计学中,通常不会明确地为所有的现有经验附加条件,因为它是可以假设的。出于这个原因,在本书中,我们不会在这种情况下单独增加变量。然而在贝叶斯分析中,我们必须记住,我们对这个世界的理解总是以自己在这个世界上的经验为条件的。本章的其余部分会保留“地球上的经验”这个变量以提醒这一点。

(2)形成假设

到目前为止,我们已经有了数据D(看到了一道亮光和一个碟形物体)和先验信念X。为了解释所看到的情况,我们需要形成某种假设(hypothesis),即形成一个关于世界如何运作的模型,从而做出预测。假设可以有多种形式,我们对这个世界的所有基本信念都可以是假设
当看到数据并认为自己看到了UFO时,你就在形成一个假设。UFO的假设很可能是基于你以前看过的电影和电视节目。将第一个假设定义为:H1=在我家的后院里有一个UFO!
但这个假设预测的又是什么呢?如果将问题倒过来想,我们可能会问:“如果在你家的后院里有一个UFO,那么你预期会看到什么呢?”你可能会回答:“亮光和碟形物体。”因为H1预测了数据D,所以当我们在给定的假设下观察到数据时,数据的概率就会增加。这样的结果可以规范地表示为:P(D|H1,X)>>P(D|X)
这个式子的意思是:“如果相信这是UFO并根据经验,在天空中看到亮光和碟形物体的概率要远远大于只看到亮光和碟形物体而无法解释的概率(这里用两个大于号>>表示远远大于)。”这里用概率的语言证明了我们的假设可以解释数据。

(3)收集更多的数据以更新信念

为了收集更多的数据,需要进行更多的观察。具体到UFO这个场景,你需要向窗外看看还能观察到什么
当去看外面的亮光时,你注意到这个区域还有更多的灯光,还看到那个巨大的碟形物体用电线吊着,并留意到一个摄像人员。你听到一声巨响,有人喊了一声“停”。你很有可能会瞬间改变对这个场景中所发生事情的看法。之前,你的推断是自己可能看到了一个UFO,现在有了一些新数据,你意识到这看起来更像是有人在附近拍电影。在这一思维过程中,你的大脑又一次瞬间完成了一次复杂的贝叶斯分析!为了更仔细地分析这一事件,下面来分解这一思维过程
最初,你的假设是:H1=有UFO着陆!
根据你的经验,这个假设单独发生的可能性非常小:P(H1|X)=非常小
这是在现有数据下,你能想到的唯一可能的解释。但是,当观察到更多的数据后,你立刻意识到还有一个可能的假设——附近有人正在拍摄电影:H2=有人正在窗外拍摄电影
这个假设单独发生的概率从直觉上来说也很小(除非你碰巧住在电影制片厂附近):P(H2|X)=很小
请注意,这里将H1的概率设为“非常小”,并将H2的概率设为“很小”。这与我们的直觉相符。假设在没有任何数据的情况下有人走过来询问:“你认为哪一种可能性更大——是UFO夜间出现在你家附近,还是刚好有电影在你家附近拍摄?”你会回答拍摄电影的可能性要比出现UFO的可能性更大。当改变信念时,我们需要用一种方法将新得到的数据考虑进去

对比假设

最开始,尽管不太相信,但你接受了出现UFO的假设,因为除此之外你想不出任何其他解释。然而现在出现了另一种可能的解释——正在拍摄电影,由此产生了备择假设(alternative hypothesis)。思考备择假设的过程,就是利用你所掌握的数据对多种假设进行比较的过程。
当看到电线、电影摄制组和额外的灯光时,你所掌握的数据就发生了变化。更新后的数据是:D更新后=亮光, 碟形物体, 电线, 摄制组, 其他灯光等
P(D更新后|H1,X)=非常小,P(D更新后|H2,X)>>P(D更新后|H1,X)
这里的关键是,要理解我们是在比较这些假设对观测数据的解释程度。当说“在第二种假设中,数据的出现概率要远远大于第一种假设”时,我们的意思是,第二种假设可以更恰当地解释所观察到的数据。由此,我们就触及了贝叶斯分析的真正核心:检验信念的标准是它们解释世界的能力。

数据影响信念,信念不影响数据

思考下面这两个公式。

第一个已经在本章中多次使用:P(D|H,X),它可以理解为“根据给定的假设和我的经验所得出的数据概率”,或者更直白地说,“我的信念对所观察到的数据解释得如何”。


但在日常思维中,有一种反过来的情况,那就是:P(H|D,X),它可以理解为“根据数据和在这个世界上的经验,我的信念的概率”,或者“我观察到的情况对我的信念的支持程度”。


在第一种情况下,我们会根据所收集到的数据和对世界的观察来改变自己的信念,从而更恰当地描述这个世界。在第二种情况下,我们收集数据来支持自己当前的信念。贝叶斯思维就是改变你的想法,更新你对世界的理解。我们观察到的数据都是真实的,所以我们的信念终归需要转变,直到与数据一致。

批注:理解的话,可以先不看X吧,先看P(D|H),P(H|D),我们以“太阳从东边升起”为例。最理想的情况就是P(D|H),意思就是持有太阳从东边升起的信念下,太阳从东边升起的概率,如果等于1,说明我们的信念可以很好地解释我们观察到的数据。P(H|D),每天观察到太阳从东边升起的条件下,太阳从东边升起成立的信念成立的概率是多少,如果等于1,就可以说明我观察到的情况对我的信念的支持程度吧。

贝叶斯定理公式

推导的话用条件概率公式就可以推导出来了,所以本质上还是“条件概率”。实际上,前面那道例题就是在运用贝叶斯定理呢~

贝叶斯概率学习笔记_第3张图片

为了理解贝叶斯定理如此重要的原因,我们来看看这个问题的一般形式。信念描述了我们所知道的世界,当观察到某件事情时,它的条件概率就代表了在我们相信的前提下自己所见事情的可能性,即:P(观察|信念)。
例如,你相信气候正在变化,因此你假设所居住的地区10年内会发生更多的干旱。你的信念是气候变化正在发生,你的观察结果是所在地区的干旱次数。假设过去10年里发生过5次干旱。如果在过去的10年里确实发生了气候变化,要确定你在过去10年中刚好观察到5次干旱的概率有多大,这可能会很困难。一种方法是咨询气候专家,询问他们在气候的确发生变化的假设下出现干旱的概率。在这一点上,你所要做的只是去问一下:“如果我相信气候变化是真的,那么观察到10年发生5次干旱的概率有多大?”但你想要的是,有某种方法来量化自己有多相信气候真的在发生变化。
贝叶斯定理允许你将咨询气候学家的概率P(观察|信念)反转,求解出在给定观察的情况下信念的概率,即:P(信念|观察)
在这个例子中,贝叶斯定理允许你将10年内观察到的5次干旱转化为一个陈述,表达在观察到这些干旱之后你对气候变化的信念有多强。你还需要的其他信息是,10年内发生5次干旱的一般概率(可以用历史数据估计)和你相信气候变化的初始概率。虽然大多数人相信气候变化的初始概率会有所不同,但贝叶斯定理可以让你准确量化数据对信念的改变程度。
然而,如果气候专家告诉你说,即使气候变化正在发生,10年内发生5次干旱的可能性也非常小,那么你先前对气候变化的信念会因为与数据相左而略有减弱。这里的关键是,贝叶斯定理允许数据改变我们对信念的相信程度。
贝叶斯定理允许我们将对世界的信念与数据结合起来,然后根据我们观察到的情况把这种结合转化为对信念强度的估计。很多时候,信念只是我们对一个想法的初始确定程度,也就是贝叶斯定理中的P(A)。我们经常会争论一些话题,比如增加考试能否提高学生的成绩,或者公共医疗能否降低整体医疗成本。但是我们很少思考数据如何改变了我们以及与我们辩论的人的想法。贝叶斯定理允许我们分析关于这些信念的数据,并精确地量化这些数据到底能够改变我们的信念多少。

批注:在多大程度上相信某点的好处在于可能可以提供一个“阈值”,换言之,当满足什么样的程度时我们就认为这是假的,在什么样的程度认为这是真的。

贝叶斯定理三要素

先验概率、似然、后验概率

贝叶斯定理可以准确地量化所观察到的数据改变我们信念的概率。这也就是。简单来说,我们想量化的是:在所观察到的数据下,自己对信念的坚信程度。在贝叶斯公式中,这个要素的术语是后验概率(posterior probability,简称为“后验”),也就是将通过贝叶斯定理所求出的解。
为了得到后验概率,还需要用到下一个要素:似然(likelihood)。它表示在给定信念的情况下,观察到某一数据的概率,也就是P(数据|信念)。
最后,需要量化初始信念的概率,即P(信念)。这一要素在贝叶斯定理中被称为先验概率(prior probability,简称为“先验”),它表示我们在看到数据之前的信念强度。

贝叶斯概率学习笔记_第4张图片

我们在运用贝叶斯定理的过程其实和上述的贝叶斯思维是一致的吧。 

贝叶斯因子与后验胜率
贝叶斯因子

贝叶斯因子是一个公式,它通过将一个假设与另一个假设进行比较来检验其合理性,比较的结果告诉我们一个假设的可能性是另一个的多少倍。

为了使用后验概率比公式,假定P(H1)=P(H2),也就是说,我们对两个假设的先验信念相同。在这种情况下,假设的先验信念比值等于1,所以剩下的内容是:P(D|H1)/P(D|H2),这就是贝叶斯因子,即两个假设的似然比

批注:比较不同假设(理论)对数据的解释程度。

先验胜率

到目前为止,我们假定每个假设的先验概率都是相同的。但情况显然并非总是如此:有些假设能够很好地解释数据,但它本身发生的可能性很小。举个例子,假设你的手机丢了,无论是你把手机落在了浴室还是外星人将它拿去研究人类技术了,都能很好地解释数据。然而,这里显然是落在浴室的可能性更大。这就是为什么需要考虑先验概率的比值:
P(H1)/P(H2)
这个比值比较的是,在我们在我们查看数据之前这两个假设发生的概率。当与贝叶斯因子相关时,这个比值被称为H1的先验胜率(prior odds),写作O(H1)。

后验胜率

如果将贝叶斯因子和先验胜率相乘,就会得到后验胜率。后验胜率计算的是,我们的假设对数据的解释要比备择假设好多少倍。

后验胜率 数据的强度
1~3 有意思,但不能得出结论
3~20 看起来我们有发现了
20~150 支持H1的有力数据
>150 支持H1的强力数据

其实就是:\frac{P(H_{1}|D)}{P(H_{2}|D)}=\frac{P(H_{1})\times P(D|H_{1})}{P(H_{2})\times P(D|H_{2})},emmm,说是废话吧,也是,但是慢慢理解也不一定是件坏事?这样我们就可以比较对于同一组数据,哪一种解释/理论/假说的解释力更强了。

现在感觉大致的内容都弄明白了,具体的掌握还是要靠练习和实践吧~ 

你可能感兴趣的:(数学,学习,笔记,概率论,其他)