深度学习中需要掌握的数学1之概率统计

深度学习中需要掌握的概率统计

  • 常见的概率分布
    • 伯努利分布(二值分布,0-1分布)
    • 二项分布(离散的)
    • 均匀分布
    • `高斯分布`(连续)
  • 独立事件的解释
  • 多变量概率分布中基本概念解释
  • 贝叶斯公式(逆概公式)
    • 全概率公式
    • 引例
    • 贝叶斯公式的例子
    • 为什么
    • 贝叶斯公式解决了什么问题?
    • 贝叶斯公式有哪些应用
  • 更加简单的理解贝叶斯
    • 举例1
    • 举例2
    • 举例3
  • 极大似然估计
    • 举例
      • 例子1
      • 例子2
    • 计算步骤
  • 先验分布、后验分布、似然估计的联系与区别
  • 参考文献

常见的概率分布

  • 1.数据类型(也叫随机变量)有2种:离散数据类型(例如抛硬币的结果),连续数据类型(例如时间)
  • 2.分布:数据在统计图中的形状
  • 3.概率分布就是将数据类型+分布组合起来的一种表现手段:
    • 概率分布就是在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率密度

伯努利分布(二值分布,0-1分布)

  • 伯努利试验:只可能要两种结果的单次随机实验
  • 其概率分布: P ( X = 1 ) = p , P ( X = 0 ) = 1 − p P(X=1)=p,P(X=0)=1-p P(X=1)=p,P(X=0)=1p.

二项分布(离散的)

  • 二项分布即重复n次伯努利试验,各试验之间都相互独立
  • 如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中事件发生k次的概率为
    P ( X = k ) = C n k p k ( 1 − p ) n − k P(X = k) = C_n^kp^k(1-p)^{n-k} P(X=k)=Cnkpk(1p)nk
  • 怎么判断判断某事件是二项分布
    • 1.做某件事的次数(也叫试验次数)是固定的,用n表示,例如抛硬币3次,投资5支股票)
    • 2.每一次事件都有两个可能的结果(成功,或者失败),例如每一次抛硬币有2个结果:正面表示成功,反面表示失败。每一次投资美股有2个结果:投资成功,投资失败
    • 3.每一次成功的概率都是相等的,成功的概率用p表示,例如每一次抛硬币正面朝上的概率都是1/2。你投资了5家公司的股票,假设每一家投资盈利成功的概率都相同
    • 4.你感兴趣的是成功x次的概率是多少,你已经知道了我前面讲的5家美股的赚钱概率最大,所以你买了这5家公司的股票,假设投资的这5家公司成功的概率都相同,那么你关心其中只要有3个投资成功,你就可以赚翻了,所以想知道成功3次的概率
    • 根据这4个特点,我们就知道抛硬币是一个典型的二项分布,还有你投资的这5支股票也是一个典型的二项分布(在假设每家公司投资成功的前提下)。
  • 这个公式就是计算做某件事情n次,成功x次的概率的。
  • 期望E(x)=np (表示某事情发生n次,预期成功多少次。)
  • 知道这个期望有啥用呢?
  • 做任何事情之前,知道预期结果肯定对你后面的决策有帮助。比如你抛硬币5次,每次概率是1/2,那么期望E(x)=5*1/2=2.5次,也就是有大约3次你可以抛出正面。
  • 在比如你之前投资的那5支股票,假设每支股票帮你赚到钱的概率是80%,那么期望E(x)=5*80%=4,也就是预期会有4只股票投资成功帮你赚到钱。

均匀分布

  • 又称矩形分布,
  • 在给定长度间隔[a,b]内的分布概率是等可能的,均匀分布由参数a,b定义,
  • 概率密度函数为: p ( x ) = 1 b − a , a < x < b p(x) = \frac{1}{b-a}, \quad a < x p(x)=ba1,a<x<b

高斯分布(连续)

  • 又称正态分布(normal),
  • 是实数中最常用的分布,由均值μ和标准差σ决定其分布,
  • 概率密度函数为: p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 p(x) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}} p(x)=2π σ1e2σ2(xμ)2
  • 常用来表示独立随机事件发生的时间间隔,参数为λ>0的指数分布概率密度函数为: p ( x ) = λ e − λ x x ≥ 0 p(x) = \lambda e^{-\lambda x} \quad x \geq 0 p(x)=λeλxx0. 指数分布重要特征是无记忆性。

独立事件的解释

  • 独立的条件:如 A 1 , A 2 , A 3 A_1,A_2,A_3 A1,A2,A3

  • 有以下条件:

    • 1. P ( A 1 A 2 ) = P ( A 1 ) P ( A 2 ) P(A_1A_2)=P(A_1)P(A_2) P(A1A2)=P(A1)P(A2)
    • 2. P ( A 1 A 3 ) = P ( A 1 ) P ( A 3 ) P(A_1A_3)=P(A_1)P(A_3) P(A1A3)=P(A1)P(A3)
    • 3. P ( A 2 A 3 ) = P ( A 2 ) P ( A 3 ) P(A_2A_3)=P(A_2)P(A_3) P(A2A3)=P(A2)P(A3)
    • 4. P ( A 1 A 2 A 3 ) = P ( A 1 ) P ( A 2 ) P ( A 3 ) P(A_1A_2A_3)=P(A_1)P(A_2)P(A_3) P(A1A2A3)=P(A1)P(A2)P(A3)
  • 满足1,2,3就是两两独立,全满足就是互相独立

多变量概率分布中基本概念解释

  • 条件概率(Conditional probability):事件X在事件Y发生的条件下发生的概率, P ( X ∣ Y ) P(X|Y) P(XY)

  • 联合概率(Joint probability):表示两个事件X和Y共同发生的概率 P ( X , Y ) P(X,Y) P(X,Y)(也可以写成 P ( X Y ) P(XY) P(XY))。

  • 条件概率和联合概率的性质 P ( Y ∣ X ) = P ( Y , X ) P ( X ) P(Y|X) = \frac{P(Y,X)}{P(X)} P(YX)=P(X)P(Y,X), ( P ( X ) > 0 P(X ) > 0 P(X)>0)。

  • 推广到 n 个事件,条件概率的链式法则 P ( X 1 , X 2 , … , X n ) = P ( X 1 X 2 , … , X n ) P ( X 2 X 3 , X 4 , … , X n ) … P ( X n − 1 X n ) P ( X n ) \begin{aligned} P(X_{1}, X_{2}, \ldots, X_{n}) &=P(X_{1} X_{2}, \ldots, X_{n}) P(X_{2} X_{3}, X_{4}, \ldots, X_{n}) \ldots P(X_{n-1} X_{n}) P(X_{n})\end{aligned} P(X1,X2,,Xn)=P(X1X2,,Xn)P(X2X3,X4,,Xn)P(Xn1Xn)P(Xn)
    = P ( X n ) ∏ i = 1 n − 1 P ( X i ∣ X i + 1 , … , X n ) \begin{aligned} =P\left(X_{n}\right) \prod_{i=1}^{n-1} P\left(X_{i} \mid X_{i+1}, \ldots, X_{n}\right) \end{aligned} =P(Xn)i=1n1P(XiXi+1,,Xn)

  • 先验概率(Prior probability):根据以往经验和分析得到的概率,在事件发生前已知,它往往作为“由因求果”问题中的“因”出现。

  • 后验概率(Posterior probability):指得到“结果”的信息后重新修正的概率,是“执果寻因”问题中 的“因”,后验概率是基于新的信息,修正后来的先验概率所获得 的更接近实际情况的概率估计。

  • 举例说明:一口袋里有3只红球、2只白球,采用不放回方式摸取,求: (1) 第一次摸到红球(记作A)的概率; (2) 第二次摸到红球(记作B)的概率; (3) 已知第二次摸到了红球,求第一次摸到的是红球的概率?

    • 解:
      • (1) P ( A = 1 ) = 3 / 5 P(A=1) = 3/5 P(A=1)=3/5, 这就是先验概率;
      • (2) P ( B = 1 ) = P ( A = 1 ) P ( B = 1 ∣ A = 1 ) + P ( A = 0 ) P ( B = 1 ∣ A = 0 ) = 3 5 2 4 + 2 5 3 4 = 3 5 P(B=1) = P(A=1) P(B=1|A=1)+ P(A=0)P(B=1|A=0)=\frac{3}{5}\frac{2}{4}+\frac{2}{5}\frac{3}{4} = \frac{3}{5} P(B=1)=P(A=1)P(B=1A=1)+P(A=0)P(B=1A=0)=5342+5243=53
      • (3) P ( A = 1 ∣ B = 1 ) = P ( A = 1 ) P ( B = 1 ∣ A = 1 ) P ( B = 1 ) = 1 2 P(A=1|B=1) = \frac{P(A = 1)P(B = 1|A = 1)}{P(B = 1)} = \frac{1}{2} P(A=1B=1)=P(B=1)P(A=1)P(B=1A=1)=21, 这就是后验概率

贝叶斯公式(逆概公式)

  • 生成模型是所有变量的全概率模型

全概率公式

  • 设事件 A i {A_i} Ai是样本空间 Ω Ω Ω 的一个划分,且 P ( A i ) > 0 ( i = 1 , 2 , . . . , n ) P(A_i)>0(i=1,2,...,n) P(Ai)>0(i=1,2,...,n),那么: P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = \sum_{i = 1}^nP(A_i)P(B|A_i) P(B)=i=1nP(Ai)P(BAi)

引例

  • 一个村子,有三个小偷, A 1 = A_1= A1=小张, A 2 = A_2= A2=小政, A 3 = A_3= A3=小英,两两互斥,事件B为村子发生失窃。已知小张去偷东西成功的概率为0,小英去偷东西成功的概率是1/2,小郑去偷东西成功的概率是1。每次只能有一个人去偷窃,求 P ( B ) = P { 失 窃 } P(B)=P\{失窃\} P(B)=P{}
  • 分析:
    • 分为两个阶段:1,选人;2,偷东西
      • 1.选人:每个人被选中打概率都是 1 / 3 1/3 1/3,所以 P ( A 1 ) = P ( A 2 ) = P ( A 3 ) = 1 / 3 P(A_1)=P(A_2)=P(A_3)=1/3 P(A1)=P(A2)=P(A3)=1/3
      • 2.偷东西:
        • 小张去偷: P ( B ∣ A 1 ) = 0 P(B|A_1)=0 P(BA1)=0
        • 小政去偷: P ( B ∣ A 2 ) = 1 / 2 P(B|A_2)=1/2 P(BA2)=1/2
        • 小郑去偷: P ( B ∣ A 3 ) = 1 P(B|A_3)=1 P(BA3)=1
    • 注意到 A 1 = A_1= A1=, A 2 = A_2= A2=, A 3 = A_3= A3=是互斥的, A 1 ∪ A 2 ∪ A 3 A_1\cup A_2\cup A_3 A1A2A3 A i A j = ∅ , i ≠ j A_iA_j=\varnothing,i \neq j AiAj=,i=j,称作完备事件组
    • P ( A B ) = P ( A ) P ( B ∣ A ) P(AB)=P(A)P(B|A) P(AB)=P(A)P(BA)得:
      P ( B ) = P ( B S ) = P ( B ∩ ( A 1 ∪ A 2 ∪ A 3 ) ) P(B)=P(BS)=P(B\cap(A_1\cup A_2\cup A_3)) P(B)=P(BS)=P(B(A1A2A3))
      = P ( B A 1 ∪ B A 2 ∪ B A 3 ) = P ( B A 1 ) + P ( B A 2 ) + P ( B A 3 ) =P(BA_1 \cup BA_2 \cup BA_3)=P(BA_1)+P(BA_2)+P(BA_3) =P(BA1BA2BA3)=P(BA1)+P(BA2)+P(BA3)
      = P ( A 1 ) P ( B ∣ A 1 ) + P ( A 2 ) P ( B ∣ A 2 ) + P ( A 3 ) P ( B ∣ A 3 ) = 1 / 2 =P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+P(A_3)P(B|A_3)=1/2 =P(A1)P(BA1)+P(A2)P(BA2)+P(A3)P(BA3)=1/2
      • P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum\limits_{i=1}^{n}P(A_i)P(B|A_i) P(B)=i=1nP(Ai)P(BAi)
      • 上面这个就是全概率公式
  • 全概率公式给我们提供了计算后验概率的途径,即贝叶斯公式 P ( A i B ) = P ( B d A i ) P (   A i ) P ( B ) = P ( B A i ) P (   A i ) ∑ j = 1 n P ( A j ) P ( B A j ) P(\mathrm{A}_{i} \mathrm{B})=\frac{P(\mathrm{B} d \mathrm{A}{i}) P(\mathrm{~A}{i})}{P(\mathrm{B})}=\frac{P(\mathrm{B} \mathrm{A}{i}) P(\mathrm{~A}{i})}{\sum_{j=1}^{n} P(\mathrm{A}_{j}) P(\mathrm{B} \mathrm{A}_{j})} P(AiB)=P(B)P(BdAi)P( Ai)=j=1nP(Aj)P(BAj)P(BAi)P( Ai)

贝叶斯公式的例子

  • 某一天,村子一个人大喊:失窃啦!!!然后警察来了。一共有3个嫌疑人: A 1 A_1 A1小张, A 2 A_2 A2小英, A 3 A_3 A3小郑。警局已经对他们的偷窃能力有备案:小张去偷东西成功的概率为0,小英去偷东西成功的概率是1/2,小郑去偷东西成功的概率是1。试问:这三人中,与这次失窃案件有关的概率是多少。
    • 分析:
      • 这个问题和引例有一点不同,引例是已知3人的偷窃能力,求村子失窃的概率。而这个问题是已知3人的偷窃能力,和村子失窃的概率,求每个人去偷窃的概率。这就是所谓的逆事件概率,贝叶斯公式需要解决的问题。
    • 先验:三个人去偷窃的概率都是一样的(这是我们的主观感受)
      • P ( A 1 ) = P ( A 2 ) = P ( A 3 ) = 1 / 3 P(A_1)=P(A_2)=P(A_3)=1/3 P(A1)=P(A2)=P(A3)=1/3
    • P ( B ) = 1 / 2 P(B)=1/2 P(B)=1/2
    • P ( B ∣ A 1 ) = 0 P(B|A_1)=0 P(BA1)=0
    • P ( B ∣ A 2 ) = 1 / 2 P(B|A_2)=1/2 P(BA2)=1/2
    • P ( B ∣ A 3 ) = 1 P(B|A_3)=1 P(BA3)=1
    • 要求的是,在失窃发生时,是他们三个人的概率是多少,即求 P ( A 1 ∣ B ) P(A_1|B) P(A1B) P ( A 2 ∣ B ) P(A_2|B) P(A2B) P ( A 3 ∣ B ) P(A_3|B) P(A3B)
    • P ( A 1 ∣ B ) = P ( A 1 B ) P ( B ) = P ( A 1 ) P ( B ∣ A 1 ) ∑ i = 1 n P ( A i ) P ( B ∣ A i ) = 0 P(A_1|B)=\frac{P(A_1B)}{P(B)}=\frac{P(A_1)P(B|A_1)}{\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)}=0 P(A1B)=P(B)P(A1B)=i=1nP(Ai)P(BAi)P(A1)P(BA1)=0
    • P ( A 2 ∣ B ) = P ( A 2 B ) P ( B ) = P ( A 2 ) P ( B ∣ A 2 ) ∑ i = 1 n P ( A i ) P ( B ∣ A i ) = 1 / 3 P(A_2|B)=\frac{P(A_2B)}{P(B)}=\frac{P(A_2)P(B|A_2)}{\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)}=1/3 P(A2B)=P(B)P(A2B)=i=1nP(Ai)P(BAi)P(A2)P(BA2)=1/3
    • P ( A 3 ∣ B ) = P ( A 3 B ) P ( B ) = P ( A 3 ) P ( B ∣ A 3 ) ∑ i = 1 n P ( A i ) P ( B ∣ A i ) = 2 / 3 P(A_3|B)=\frac{P(A_3B)}{P(B)}=\frac{P(A_3)P(B|A_3)}{\sum\limits_{i=1}^{n}P(A_i)P(B|A_i)}=2/3 P(A3B)=P(B)P(A3B)=i=1nP(Ai)P(BAi)P(A3)P(BA3)=2/3
  • P ( A i ) P(A_i) P(Ai)就是所谓的先验概率,而 P ( B ∣ A I ) P(B|A_I) P(BAI)就是后验概率

为什么

  • 在失窃发生之前,我们认为 3 3 3个人去偷窃的概率都是 1 / 3 1/3 1/3
  • 但是失窃发生后,由于每个人的偷窃能力不同,我们预判谁去偷窃的概率就会发生变化。
  • 这个例子中,先验概率 P ( A i ) = 1 / 3 P(A_i)=1/3 P(Ai)=1/3先验概率往往都是我们的主观映像:在失窃发送之前,我们认为所有人去偷窃的概率都是一样的。
  • 而后验概率是什么呢?因为每个人偷窃的成功率不同,所以偷窃发生后,到底谁去偷窃的概率也就发生了变化。所以后验概率就是一个调整因子,当一件事件发生后,对原事件发生的概率产生了影响。

贝叶斯公式解决了什么问题?

  • 贝叶斯解决的是逆向概率的问题。什么叫逆向概率呢?
    • 比如在村子失窃的例子中,正向概率就是:已知每个人的偷窃能力,求村子失窃的概率。
    • 逆向概率就是:已知村子失窃的概率和每个人的偷窃能力,偷窃事件发生了,然后求每个人与这起偷窃案件相关的概率。

贝叶斯公式有哪些应用

  • 贝叶斯公式真正被应用起来,是在其发表一百多年后了。为什么一开始贝叶斯公式不背重视呢?因为加入了先验概率,而先验概率是我们的主观映像,传统的概率学认为,概率统计是不能被主观引导的,这就导致了贝叶斯公式不被重视。
    后来,人们逐渐发现了贝叶斯公式大有用处,并且将其广泛应用与天气预报,垃圾邮件处理等一系列的问题之中。贝叶斯公式也是机器学习中及其重要的模型。

更加简单的理解贝叶斯

举例1

  • 这里有A,B两个箱子有大小形状和数量都一样的球,A箱子1/3是白球,2/3是黑球。B箱子全部是黑球,我们蒙着眼睛,伸手从箱子取球:由于球的大小形状和数量都一样,所以我们认为取的球来自A箱和B箱的概率都是1/2。但是我摸出来以后,我瞄了一眼,发现:这是白球。然后我就断定:这个球一定来自A箱子。摸出来的球来自A箱的概率由1/2变成了1。这是为什么呢?就是因为有后验概率是不一样的,摸出来球的颜色会对一开始的概率产生影响。
  • 我们用贝叶斯公式来计算一下:
  • 我们定义:
    P ( A ) = P ( 取 出 的 球 来 自 A 箱 子 ) P(A)=P({取出的球来自A箱子}) P(A)=P(A) P ( B ) = P ( 取 出 的 球 来 自 B 箱 子 ) P(B)=P({取出的球来自B箱子}) P(B)=P(B) P ( C ) = P ( 取 出 的 球 是 白 色 ) P(C)=P({取出的球是白色}) P(C)=P()
  • 已知 P ( A ) = 1 / 2 , P ( B ) = 1 / 2 , P ( C ) = 1 / 6 , P ( C ∣ A ) = 1 / 3 , P ( C ∣ B ) = 0 P(A)=1/2,P(B)=1/2,P(C)=1/6,P(C|A)=1/3,P(C|B)=0 P(A)=1/2,P(B)=1/2,P(C)=1/6,P(CA)=1/3,P(CB)=0
  • 由贝叶斯公式得:
    p ( A ∣ C ) = P ( C ∣ A ) P ( A ) P ( C ) = 1 p(A|C)=\frac{P(C|A)P(A)}{P(C)}=1 p(AC)=P(C)P(CA)P(A)=1
    p ( B ∣ C ) = P ( C ∣ B ) P ( B ) P ( C ) = 0 p(B|C)=\frac{P(C|B)P(B)}{P(C)}=0 p(BC)=P(C)P(CB)P(B)=0
  • 可见:摸出来的球来自A箱的概率从1/2变成了1,这是因为后验概率对原概率发生了影响。

举例2

  • 已知:在夏季,某公园男性穿凉鞋的概率为 1 / 2 1/2 1/2,女性穿凉鞋的概率为 2 / 3 2/3 2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?
    • A A A=男性, B B B=女性, x x x=穿凉鞋
    • 问题要求的是若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率,也就是问在穿凉鞋的条件下,性别是男或者女,即 P ( A ∣ x ) P(A|x) P(Ax) P ( B ∣ x ) P(B|x) P(Bx)
    • 由题干可知:
      • 先验概率:
        • 公园里遇到的人是男性的概率 P ( A ) = 2 / 3 P(A)=2/3 P(A)=2/3
        • 公园里遇到的人是女性的概率 P ( B ) = 2 / 3 P(B)=2/3 P(B)=2/3
      • 类条件概率:
        • 男性穿凉鞋的概率 P ( x ∣ A ) = 1 / 2 P(x|A)=1/2 P(xA)=1/2
        • 女性穿凉鞋的概率 P ( x ∣ B ) = 2 / 3 P(x|B)=2/3 P(xB)=2/3
      • 公园穿凉鞋的概率:
        • P ( x ) = P ( A ) P ( x ∣ A ) + P ( B ) P ( x ∣ B ) P(x)=P(A)P(x|A)+P(B)P(x|B) P(x)=P(A)P(xA)+P(B)P(xB)
      • 题目求解:
        • P ( A ∣ x ) = P ( A , x ) P ( x ) = P ( x ∣ A ) P ( A ) P ( x ) = 3 / 5 P(A|x)=\frac{P(A,x)}{P(x)}=\frac{P(x|A)P(A)}{P(x)}=3/5 P(Ax)=P(x)P(A,x)=P(x)P(xA)P(A)=3/5
        • P ( B ∣ x ) = P ( B , x ) P ( x ) = P ( x ∣ B ) P ( B ) P ( x ) = 2 / 5 P(B|x)=\frac{P(B,x)}{P(x)}=\frac{P(x|B)P(B)}{P(x)}=2/5 P(Bx)=P(x)P(B,x)=P(x)P(xB)P(B)=2/5

举例3

  • 设有甲和乙两名运动员,甲命中射击的概率为0.6,乙的威0.5,求下列概率:1.从甲乙中任选一个人去射击,若目标命中,则是甲命中的概率是多少2.甲乙各自独立射击,若目标命中,则是甲命中的概率是多少

  • 1.分阶段:(1)选人: A 甲 , A 乙 A_甲,A_乙 A,A.(2)射击:命中= B B B

p ( A 甲 ∣ B ) = P ( A 甲 B ) P ( B ) = P ( A 甲 ) P ( B ∣ A 甲 ) P ( B ) p(A_甲|B)=\frac{P(A_甲B)}{P(B)}=\frac{P(A_甲)P(B|A_甲)}{P(B)} p(AB)=P(B)P(AB)=P(B)P(A)P(BA) = P ( A 甲 ) P ( B ∣ A 甲 ) P ( A 甲 ) P ( B ∣ A 甲 ) + P ( A 乙 ) P ( B ∣ A 乙 ) =\frac{P(A_甲)P(B|A_甲)}{P(A_甲)P(B|A_甲)+P(A_乙)P(B|A_乙)} =P(A)P(BA)+P(A)P(BA)P(A)P(BA) = 1 2 ∗ 0.6 1 2 ∗ 0.6 + 1 2 ∗ 0.5 = 6 11 =\frac{\frac{1}{2}*0.6}{\frac{1}{2}*0.6+\frac{1}{2}*0.5}=\frac{6}{11} =210.6+210.5210.6=116

  • 2.不分阶段
    A 甲 = A_甲= A={甲命中}
    A 乙 = A_乙= A={乙命中}
    B = B= B={目标被命中}
    B = A 甲 ∪ A 乙 B=A_甲 \cup A_乙 B=AA 甲或者乙命中
    p ( A 甲 ∣ B ) = P ( A 甲 B ) P ( B ) = P ( A 甲 ) P ( A 甲 ) + P ( A 乙 ) − P ( A 甲 A 乙 ) p(A_甲|B)=\frac{P(A_甲B)}{P(B)}=\frac{P(A_甲)}{P(A_甲)+P(A_乙)-P(A_甲A_乙)} p(AB)=P(B)P(AB)=P(A)+P(A)P(AA)P(A)

极大似然估计

  • 离散型和连续性,即 L ( θ ) = { ∏ i = 1 n p ( X i , θ ) ∏ i = 1 n f ( X i , θ ) L(\theta)=\begin{cases}\prod\limits_{i=1}^n p(X_i,\theta)\\\prod\limits_{i=1}^n f(X_i,\theta)\end{cases} L(θ)=i=1np(Xi,θ)i=1nf(Xi,θ),当 θ \theta θ取多少时,概率最大
  • 只是一种概率论在统计学的应用,它是参数估计的方法之一

举例

例子1

  • 运动员射箭,运动员分1和2级运动员,射箭成绩为 ( 10 , 9 , 10 , 10 ) (10,9,10,10) (10,9,10,10),所以我们可以推测这个是1级运动员,换句话说,在他为1级运动员时,射出 ( 10 , 9 , 10 , 10 ) (10,9,10,10) (10,9,10,10)的成绩的概率最大,即 p ( 10 , 9 , 10 , 10 ∣ 1 ) = max ⁡ p(10,9,10,10 | 1)=\max p(10,9,10,101)=max,就是参数为多少时,观测值出现的概率最大, p ( 10 , 9 , 10 , 10 ∣ ? ) = max ⁡ p(10,9,10,10 | ?)=\max p(10,9,10,10?)=max ? ? ?处就是我们要算的 θ \theta θ.

例子2

  • 比如,如果其他条件一定的话,抽烟者发生肺癌的危险时不抽烟者的5倍,那么如果现在我已经知道有个人是肺癌,我想问你这个人抽烟还是不抽烟。你怎么判断?你可能对这个人一无所知,你所知道的只有一件事,那就是抽烟更容易发生肺癌,那么你会猜测这个人不抽烟吗?我相信你更有可能会说,这个人抽烟。为什么?这就是“最大可能”,我只能说他“最有可能”是抽烟的,“他是抽烟的”这一估计值才是“最有可能”得到“肺癌”这样的结果。这就是最大似然估计。

计算步骤

  • 一般取对数,令 d log ⁡ L ( θ ) d θ = 0 \frac{d\log L(\theta)}{d\theta}=0 dθdlogL(θ)=0,得出 θ ^ \hat\theta θ^,此处 log ⁡ \log log就是 ln ⁡ \ln ln
  • 取对数为什么可以求出 θ ^ \hat\theta θ^,是因为对数函数严格单调增;也可以不取对数,直接求导;
  • 如果 L ( θ ) L(\theta) L(θ)关于 θ \theta θ单调,直接定义法,取两端,一般是样本的 max ⁡ \max max或者 m i n min min。Notice:对于连续性的,要根据分布函数先求出概率密度, X X X ~ F ( x , θ ) F(x,\theta) F(x,θ)求导得 X X X ~ f ( x , θ ) f(x,\theta) f(x,θ)

先验分布、后验分布、似然估计的联系与区别

  • 这几个概念可以用原因的可能性结果的可能性先后顺序条件关系来理解。

  • 下面举例:

    • 隔壁老王要去10公里外的一个地方办事,他可以选择走路骑自行车或者开车,并花费了一定时间到达目的地。
    • 在这个事件中,可以把交通方式(记为 w w w)(走路 w 1 w_1 w1、骑车 w 2 w_2 w2或开车 w 3 w_3 w3)认为是原因花费的时间(记为 x x x)认为是结果
    • 若老王花了一个小时的时间完成了10公里的距离,那么很大可能是骑车过去的,当然也有较小可能老王是个健身达人跑步过去的,或者开车过去但是堵车很严重。
    • 若老王一共用了两个小时的时间完成了10公里的距离,那么很有可能他是走路过去的。
    • 若老王只用了二十分钟,那么很有可能是开车。
    • 这种先知道结果,然后由结果估计原因的概率分布 P ( 交 通 方 式 ∣ 时 间 ) = P ( w ∣ x ) P(交通方式|时间)=P(w|x) P()=P(wx),就是后验概率
    • 老王早上起床的时候觉得精神不错,想锻炼下身体,决定跑步过去;
    • 也可能老王想做个文艺青年试试最近流行的共享单车,决定骑车过去;
    • 也可能老王想炫个富,决定开车过去。
    • 老王的选择与到达目的地的时间无关。
    • 先于结果,确定原因的概率分布 p ( 交 通 方 式 ) = P ( w ) p(交通方式)=P(w) p()=P(w),就是先验概率
    • 老王决定步行过去,那么很大可能10公里的距离大约需要两个小时;较小可能是老王平时坚持锻炼,跑步过去用了一个小时;更小可能是老王是个猛人,40分钟就到了。
    • 老王决定骑车过去,很可能一个小时就能到;较小可能是老王那天精神不错加上单双号限行交通很通畅,40分钟就到了;还有一种较小可能是老王运气很差,连着坏了好几辆共享单车,花了一个半小时才到。
    • 老王决定开车过去,很大可能是20分钟就到了,较小可能是那天堵车很严重,磨磨唧唧花了一个小时才到。
    • 这种先确定原因,根据原因来估计结果的概率分布 P ( 时 间 ∣ 交 通 方 式 = P ( x ∣ w ) ) P(时间|交通方式=P(x|w)) P(=P(xw)),就是似然估计
    • 老王去那个地方好几趟,不管是什么交通方式,得到了一组关于时间的概率分布。
    • 这种不考虑原因,只看结果的概率分布 P ( 时 间 ) = P ( x ) P(时间)=P(x) P()=P(x),证据/迹象evidence
      P ( θ ∣ x ) = P ( x ∣ θ ) P ( θ ) P ( x ) P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(x)} P(θx)=P(x)P(xθ)P(θ)
    • x x x:观察得到的数据(结果)
    • θ \theta θ:决定数据分布的参数(原因)
    • P ( θ ∣ x ) P(\theta|x) P(θx):后验
    • P ( θ ) P(\theta) P(θ):先验
    • P ( x ∣ θ ) P(x|\theta) P(xθ):似然
    • P ( x ) P(x) P(x):证据/迹象
  • 将上例改成具体数值的例子:
    “因”为交通方式 w w w“果”为所用时间 x x x

  • 1.先验 P ( w ) P(w) P(w):要去10公里外的某地,老王开车的可能性最大, P ( 开 车 ) = P ( w 3 ) = 0.6 P(开车)=P(w_3)=0.6 P()=P(w3)=0.6,而骑车和走路可能性为 P ( 骑 车 ) = P ( w 2 ) = 0.3 P(骑车)=P(w_2)=0.3 P()=P(w2)=0.3 P ( 步 行 ) = P ( w 1 ) = 0.1 P(步行)=P(w_1)=0.1 P()=P(w1)=0.1

  • 2.似然 P ( x ∣ w ) P(x|w) P(xw)

    • 开车时,花20分钟比较多,也可能堵到2小时。大家想象一个分布——横轴为时间,从0到120分钟;纵轴为概率,0到1
    • 分布是一条曲线,线下面积为1(总概率为1),20分钟时值为0.5,120分钟时值为0.05。
    • 相同的,有两条骑车和步行时的条件概率图,骑车时时间为60分钟的概率最大,为0.4,其他时间概率相应地较小;步行时120分钟的概率最大,为0.5。
  • 3.迹象/证据 P ( x ) P(x) P(x):老王去过这个地方20次了,所花分钟数分别为: 20 , 30 , 20 , 60 , 90 , 120 , 20 , 60 , 120 , 110 , 40 , 50 , 60 , 70 , 90 , 120 , 110 , 20 , 70 , 90 20,30,20,60,90,120,20,60,120,110,40,50,60,70,90,120,110,20,70,90 203020609012020601201104050607090120110207090,则可做出时间分布的直方图,不做也行。“20分钟”这个值出现了4次,所以 P ( x = 20 ) = 4 / 20 = 0.2 P(x=20)=4/20=0.2 P(x=20)=4/20=0.2,同样的, P ( x = 120 ) = 3 / 20 = 0.15 P(x=120)=3/20=0.15 P(x=120)=3/20=0.15

  • 4.后验 P ( w ∣ x ) P(w|x) P(wx)

  • 老王告诉妻子,这次去某地花了120分钟妻子知道老王选交通方式的概率(先验)知道3种交通方式对应的概率分布(似然)知道老王去的20次的时间分布(迹象/证据)

  • 于是妻子用贝叶斯公式,就能知道花了120分钟的老王,采用的交通方式应该是什么。由 P ( w ∣ x ) = P ( x ∣ w ) P ( w ) P ( x ) P(w|x)=\frac{P(x|w)P(w)}{P(x)} P(wx)=P(x)P(xw)P(w),有 P ( 步 行 ∣ 时 间 = 120 分 钟 ) = P ( 120 分 钟 ∣ 步 行 ) P ( 步 行 ) P ( 120 分 钟 ) P(步行|时间=120分钟)=\frac{P(120分钟|步行)P(步行)}{P(120分钟)} P(=120)=P(120)P(120)P()

  • 由数据知, P ( 步 行 ) = 0.1 P(步行)=0.1 P()=0.1 P ( 120 分 钟 | 步 行 ) = 0.5 P(120分钟|步行)=0.5 P(120)=0.5 P ( 120 分 钟 ) = 0.15 P(120分钟) = 0.15 P(120)=0.15。代入三个数字,求出值为0.333。类似的,可求出 P ( 骑 车 ∣ 时 间 = 120 分 钟 ) = 0.002 P(骑车|时间=120分钟) =0.002 P(=120)=0.002 P ( 开 车 ∣ 时 间 = 120 分 钟 ) = 0.02 P(开车|时间=120分钟) =0.02 P(=120)=0.02

  • 其中步行的概率最大,所以妻子觉得老王最有可能是走着去的。这就是后验啦。这个例子里先验和似然也是经验值提供的,不来自样本,分类属性值也只有“交通方式”一个,没有“路况”、“身体条件”什么的。

  • 总的来说:

    • 先验概率可理解为统计概率,后验概率可理解为条件概率
    • 再举个简单的例子:
      • 设定背景:酒至半酣,忽阴云漠漠,骤雨将至。
      • 情景一:
        • “天不会下雨的,历史上这里下雨的概率是20%”,这个就是先验概率
        • “但阴云漠漠时,下雨的概率是80%”,这个就是后验概率
        • 分析:因为下雨导致乌云,下雨是因,乌云是果。
          • P ( 下 雨 ) P(下雨) P()就是先验概率(有历史,说明统计过了,多次)
          • P ( 下 雨 ∣ 乌 云 ) P(下雨|乌云) P()就是后验概率
          • P ( 乌 云 ∣ 下 雨 ) P(乌云|下雨) P()就是似然
          • P ( 乌 云 ) P(乌云) P()就是证据/迹象

参考文献

简单理解贝叶斯公式
先验后验似然的解释:作者:Agenter
先验后验似然的解释:作者:徐冬冬

你可能感兴趣的:(Pytorch学习,深度学习,概率论)