概率入门

该篇内容是在知乎上看到的Yjango大佬的分享做的笔记,原文是Joseph K. Blitzstein的《Introduce to Probability》中第一章的内容的理解。看过后做个总结
首先,对线性代数和概率做了一个概括性描述:

通过线性代数,我们知道了该如何描述事物状态及其变化。遗憾的是,对一个微小的生物而言,世界并非确定性(nondeterministic)的,由于感知限制,很多事物是无法确定其状态的。然而为了更好的生存,预测未来状态以决定下一刻的行为至关重要。而概率给我们的决策提供了依据。

对此,我的理解是线性代数就像空间中的各种元素,通过权重的不同形成不同的物质(例如C、O原子不同比例能够组成CO、CO2等);而概率的意义在于既然物质形成千变万化,那么到底会生成那种物质的确信度(概率)是多少

一、什么是概率(提出一个概念,样本空间)

概率是我们对事件处于哪个状态的确信度

下面的图片如何考虑转盘在未来停止后指针指向各个数字的可能性?(1、2、3是可能被指到的三个结果,这三个结果组成的集合也就是样本空间(sample space))

样本空间:即无论事态如何发展,结果都不会出现在该集合之外(和向量空间一样)。

而样本空间的子集,如{1、2}叫作一个事件(event),表示指针指到1或2的情况,满足任何一个情况都算作该事件发生了(occurred)。所有事件发生的可能性都用值域为[0,1]间的实数表示,1表示必然发生,0表示不可能发生。{1}, {2,3}两个不相交的事件的概率和为1。[0,1]间的实数是概率得出的值,但并非概率的全部。概率是一个函数。

对于概率是一个函数的理解,函数的意义表示为通过一个输入,有唯一对应的输出,对于概率来说,事件(样本空间内的子集)相当于一个输入,发生还是不发生的可能性(概率空间)就相当于它的输出
image.png
概率:概率是将样本空间内的子集投向概率空间的函数。

概率P()将事件A作为输入,并输出[0,1]之间的实数表示其发生的可能性。该函数需要满足两个条件:

  1. P(空) = 0,P(S) = 1,空集的概率为0,全集的概率为1
    2.不相交事件之间的并集事件的概率等于各个事件概率之和。(如P(1,2) = P(1) + P(2))
    结果:可能到达的状态
    样本空间:所有可能发生的结果所组成的集合。
    事件:样本空间的子集
    当实际发生的结果在A事件中,表示A事件发生。

二、朴素概率的计算和普遍概率的区别是什么

人们在计算概率时常常犯的错误就是不假思索的假定所有结果所发生的可能性都相同。并用事件的结果个数比上样本空间的结果个数。(就是把问题都想成了扔硬币)


image.png

A和S表示集合中元素的个数
这种假设是不严谨的:在上图圆盘中,如果使用朴素概率来计算P(1) = P(2) = P(3) = 1/3,但是指向3的结果面积占圆盘的一半,指向3的概率更大,则各个结果发生的可能性并不相同,不可以使用朴素概率算法。

样本空间好比是总价为1的一筐苹果,一个事件就是一堆苹果,概率是将这堆苹果转换成实际价钱的函数。但苹果有大有小,只有当所有苹果都一模一样时,这堆苹果的价钱才是 苹果数/总个数。空集,即一个苹果都没有的话,价格为0。整框苹果的话,价格自然为1。把整框苹果分成几堆(事件之间不相交),价格的总和为1。(鸡蛋也一样)
image.png

三、条件概率

当我们获得更多信息后,新信息会对原始样本空间产生更新。(简单来说就是信息对概率的影响)

条件概率是新信息对样本空间进行调整后的概率情况
  • 实例:从一副洗好的扑克里,不放回的依次抽两张卡片。事件A表示第一张卡片是心,事件B表示第二张卡片是红色。求事件B发生的条件下,事件A发生的概率P(A|B)。以及事件A发生的条件下,事件B发生的概率P(B|A)。
    卡片都是均匀形状,可用朴素概率计算。最初的样本空间是 54∗53=2862 种。事件B发生的条件下,样本空间被调整,所有第二张不是红色的结果都会从样本空间内去掉,变成 26∗53=1378种(可认为第二张先抓,顺序不影响组合结果)。其中第一张是心,且第二张是红色的结果有13∗25=325种。所以P(A|B)的概率为 325/1378≈0.236。
    事件A发生后,所有第一张不是心的结果都会从样本空间内去掉,变成13∗53=689种。其中第一张是心,且第二张是红色的结果有 13∗25=325种。所以P(B|A)的概率为325/689≈0.472。
    P(A|B)和P(B|A)二者的条件对原始样本空间的调整不同,所以并不相等。同时“|”右边的事件并不意味首先发生,也并不意味着是左边事件的起因。
  • 实例:先后投两次硬币。原始样本空间是{正正,反反,正反,反正}。已知事件A是第一次投得正面,事件B是第二次投得正面。P(B|A)更新后的样本空间为{正正,正反}。但第二次投得正面的概率仍然是1/2。事件A和事件B彼此没有影响,叫做两个事件独立。
    条件概率:P(A|B) = P(A∩B) /P(B)(使用样本空间的概念来考虑)
    P(A|B)表示B事件条件下,A发生的概率。
    P(A)叫作先验概率(prior probability),即时态未更新时,A事件的概率。
    P(A|B)也叫作后验概率(posterior probability),即时态更新后,A事件的概率
    P(A∩B)是B发生后A的事件集合,而除以P(B)是在该基础上,将样本空间的总概率重新调整为1。
    当事件A与B为独立事件时,其中一个事件的发生并不会对另一个事件的样本空间产生影响。即P(A|B) = P(A),P(B|A) = P(B)

四、贝叶斯公式(P(A|B)与P(B|A)的关系)

人们经常将P(A|B)和P(B|A)搞混,把二者搞混的现象叫做检察官谬误(prosecutor's fallacy)。

  • 实例:某机器对在所有人口中得病率为1%的癌症识别率为95%(有病的人被测出患病的概率和没病的人被测出健康的概率)。一个被测得有病的人真实患癌症的概率是多少?
    得出答案是95%的人就是搞混了P(A|B)和P(B|A)。正确答案约等于16%。拿10000个人来思考。
    真正的样本空间是由测得有病的癌症患者和测得有病的正常人组成,所以答案是95/(95+495)≈16%。
    我们知道条件概率是新信息对样本空间进行调整后的概率情况,所以检察官谬误实际上是样本空间的更新产生了差错。不过我们可以从条件概率中寻找关系:通过变形条件概率的定义,就可以得出著名的贝叶斯公式和全概率公式。
  • 贝叶斯公式(Bayes' theorem): P(A|B) = P(B|A)P(A)/P(B)
    (P(A|B) = P(A∩B) /P(B)P(B|A) = P(B∩A) /P(A),因为P(A∩B) = P(B∩A),所以可以推导出贝叶斯公式 )
  • 全概率公式(Law of total probability):
    image.png

    其中Ai是样本空间S的分割(partition),即彼此不相交,并且组成的并集是样本空间。
    如下图:
    image.png

    用这两个公式,我们重新计算上面的癌症问题:
  • 实例:其中P(A)是人口中患癌症的概率,为1%,P(B)是测得有病的概率。P(B|A)是有患癌症时,测得有病的概率,为95%。P(B|AC)就是没病时却测得有癌症的概率,为5%。
    要计算的是,当被测得有病时,真正患病的概率P(A|B)是多少。
    由贝叶斯公式可以得到:P(A|B) = P(B|A)P(A)/P(B) = 0.95 * 0.01 / P(B)
    由全概率公式可以得到:P(B) = P(B|A)P(A) + P(B|AC)P(AC)
    全部代入就得到: 0.95 * 0.01 / (0.95 * 0.01 + 0.05 * 0.99) = 16%
这两个公式在机器学习中非常重要。贝叶斯公式告诉了我们P(A|B)和P(B|A)两者之间的关系。很多时候,我们难以得出其中一个的时候,介意改求另一个。
  • 实例:语音识别中,听到某串声音的条件o下,该声音是某段语音s的条件概率最大的argmaxP(s|o)为识别结果。然而P(s|o)并不好求。所以改求P(s|o) = P(o|s)P(s) / P(o)。P(o)对比较同一个P(s|o)时并没有影响,因为大家都有,则不需要考虑。剩下的P(o|s)叫做声学模型,描述该段语音会发出什么样的声音。而P(s)叫做语言模型,包含着语法规则信息。
    而全概率公式又是连接条件概率与非条件概率的桥梁。
全概率公式可以将非条件概率,分成若干块条件概率来计算。
  • 实例:三门问题。三扇门中有一扇门后是汽车,其余是羊。参赛者会先被要求选择一扇门。这时主持人会打开后面是羊的一扇门,并给参赛者换到另一扇门的机会。问题是参赛者该不该换? 应该换门。换门后获得汽车的概率为2/3,不换门的概率为1/3。
    用全概率公式来思考该问题就可以将问题拆分成若干个相对简单的条件概率。
    P(getcar)获得汽车的概率可以用拆分成选择各个门可得汽车的概率。P(D1)为车在第一扇门的概率。
    P(getcar) = P(getcar|D1)P(D1) + P(getcar|D2)P(D2) + P(getcar|D3)P(D3)
    P(getcar) = P(getcar|D1)1/3+ P(getcar|D2)1/3 + P(getcar|D3)1/3
    如果不换门,得车的概率就是P(D1),即1/3.
    若换门。当车在第一扇门后时,P(getcar||D1)
    1/3由于换门的选择而变成了0。但当车在第二或第三扇门后时,由于主持人去掉了一扇后面为羊的门,换门的选择会100%得到车。
    所以,P(getcar) = 0 * 1/3 + 1 * 1/3 +1 * 1/3 = 2/3

五、随机变量

随机变量是一种非常方便的事件表达方式。
我们用文字表达事件和概率时,往往不利于计算

  • 实例:一开始的例子中,我们若用文字去表达事件和概率。样本空间 S = { 橘黄色,绿色,蓝色 }。
    情况1:若仅仅是问转盘停止后指针指到某个颜色的概率还可以接受。如P(指到橘黄色)。
    情况2:如果是奖励游戏,转到橘黄、绿、蓝色分别奖励1、2、3元。转3次后,想知道奖励了多少钱的概率。3元的我们要写一次描述,4元的也要写一次描述。十分笨拙。如果想问的是美元呢?我们又没办法用事件去乘以汇率。
    然而如果用随机变量,就变得非常方便。设Xr表示转 r次后一共奖励了多少人民币。 c是人民币对美元汇率的话,c * Xr就表示表示转r次后一共奖励了多少美元。Xr+1 - X(r)就表示了下一局赢得了多少人民币。
随机变量:给定一个样本空间S,一个随机变量(r.v.)是将样本空间投射到实数域的函数。

一个样本空间可以有很多个随机变量。在最初的例子,我们就已经将样本空间S={橘黄色,绿色,蓝色}对应到了实数域中的1,2,3。


image.png

随机变量作为函数而言是确定的。输入事件橘黄色,一定会得到1这个输出,函数本身并没有什么“随机”。“随机”是由于函数的输入(可能是黄色,绿色,蓝色)的发生概率。
X = 3表达的是指针指到蓝色的事件。P(X = 3)表达指针指到蓝色的事件的概率。
随机变量是认为事先选择的,非常灵活,好的随机变量会使问题简化许多。
根据随机变量投射后的值域是离散还是连续,随机变量可以分为离散随机变量和连续随机变量。

六、分布

随机变量中的“随机”来自事件发生的概率。分布(distribution)是描述随机变量所对应的所有事件的发生概率的情况。

  • 实例:上例随机变量X1(转1次奖励人民币数)的分布情况用概率质量函数(probability mass function,简写为PMF)表示就是:
    image.png
概率五要件
  • 样本空间:所有可能结果组成的集合。
  • 随机变量:将事件投向实数的函数。用数字代表事件。
  • 事件:样本空间的子集。
  • 概率:将事件投向[0,1]实数域的函数。用实数表示确信度。
  • 分布:随机变量的取值概率情况。

你可能感兴趣的:(概率入门)