概率 随机变量 条件概率 贝叶斯定理

文章目录

  • 概率和随机变量
    • 1. 概率
      • 1.1 相对频率定义
      • 1.2 公理化定义
    • 2. 离散随机变量
      • 2.1 联合概率和条件概率
      • 2.2 贝叶斯定理
    • 3. 连续随机变量

概率和随机变量

随机变量x是一个变化的量,它的变化是由于偶然/随机性引起的。可以将随机变量看成一个函数,它由实验结果赋值。例如:在抛硬币的实验中把正面朝上定义为x1=0,反面朝上为x2=1。
一般用小写字母表示随机变量,如 x \text x x。一旦试验完成,它的取值就用斜体的 x x x表示。
如果一个随机变量的值是离散的,就用一组概率来描述它,如果它的值位于实轴(不可数无限集)的一个区间内,就用概率密度函数(PDF)来表示。

1. 概率

1.1 相对频率定义

时间A的概率P(A)是极限
P ( A ) = lim ⁡ n − > ∞ n A n P(A)=\lim_{n->\infty}\frac{n_A}{n} P(A)=limn>nnA

1.2 公理化定义

● 公理一:一个事件的概率是非负数
P ( A ) ≥ 0 P(A)\ge 0 P(A)0
● 公理二:必然事件的概率是1
对于必然事件C, P ( C ) = 1 P(C)=1 P(C)=1.
● 公理三:两个独立事件的和事件的概率等于两个独立事件的概率之和
如果A,B是互斥事件,则
P ( A ∪ B ) = P ( A ) + P ( B ) P(A \cup B) = P(A) + P(B) P(AB)=P(A)+P(B)

2. 离散随机变量

离散随机变量x可以去有限集或可数无限集 X \mathcal{X} X中的任意值。集合 X \mathcal{X} X也称为样本空间或状态空间。事件“ x = x ∈ X \text x = x\in \mathcal{X} x=xX”的概率表示为
P ( x = x ) 或简单的表示为 P ( x ) . P(\text x = x) \text{或简单的表示为} P(x). P(x=x)或简单的表示为P(x).
函数 P P P称为概率质量函数(PMF)

2.1 联合概率和条件概率

两个事件A和B的联合概率为两个事件同时发生的概率,记为 P ( A , B ) P(A,B) P(AB)。现在考虑分别在两个样本空间 X = x 1 , . . . , x n x , Y = y 1 , . . . , y n y \mathcal{X} ={x_1,...,x_{n_x}},\mathcal{Y}={y_1,...,y_{n_y}} X=x1,...,xnx,Y=y1,...,yny中的随机变量 x , y \text x, \text y x,y

  • 求和法则
    P ( x ) = ∑ y ∈ Y P ( x , y ) P(x)=\sum_{y \in \mathcal{Y}}P(x,y) P(x)=yYP(x,y)

  • 条件概率
    P ( A ∣ B ) = P ( A , B ) P ( B ) , 其中要求 P ( B ) ≠ 0 P(A|B) = \frac{P(A,B)}{P(B)},其中要求P(B) \ne 0 P(AB)=P(B)P(A,B),其中要求P(B)=0.
    从相对频率的角度能很好的理解其中的实际意义。设 n A B n_{AB} nAB为两个事件同时发生的次数, n B n_B nB为n次实验中事件B发生的次数,则有:
    P ( A ∣ B ) = n A B n n n B = n A B n B P(A|B)=\frac{n_{AB}}{n} \frac{n}{n_B}=\frac{n_{AB}}{n_B} P(AB)=nnABnBn=nBnAB
    也就是在给定一个事件B的情况下,事件A的条件概率是A事件相对于B事件发生次数的相对频率

  • 乘积法则
    从随机变量的角度看,条件概率的定义也称为概率的乘积法则
    P ( x , y ) = P ( x ∣ y ) P ( y ) P(x,y) = P(x|y)P(y) P(x,y)=P(xy)P(y)
    P ( x ) , P ( y ) P(x),P(y) P(x),P(y)称为边际概率。

  • 统计独立
    两个随机变量称为统计独立的,当且仅当它们的联合概率可以写成各自边际概率的乘积。
    P ( x , y ) = P ( x ) P ( y ) P(x,y)=P(x)P(y) P(x,y)=P(x)P(y)

2.2 贝叶斯定理

由概率的乘积法则和联合概率的对称性 P ( x , y ) = P ( y , x ) P(x,y)=P(y,x) P(x,y)=P(y,x)可以直接得到:
P ( y ∣ x ) = P ( x ∣ y ) P ( y ) P ( x ) :贝叶斯定理 P(y|x)=\frac{P(x|y)P(y)}{P(x)} :贝叶斯定理 P(yx)=P(x)P(xy)P(y):贝叶斯定理
其中边际概率 P ( x ) P(x) P(x)可以写成:
P ( x ) = ∑ y ∈ Y P ( x , y ) = ∑ y ∈ Y P ( x ∣ y ) P ( y ) P(x)=\sum_{y\in \mathcal Y}P(x,y)=\sum_{y\in \mathcal Y}P(x|y)P(y) P(x)=yYP(x,y)=yYP(xy)P(y)

3. 连续随机变量

定义随机变量 x \text x x累计分布函数(CDF)为:
F x ( x ) = P ( x ≤ x ) F_{\text x}(x)=P(\text x \le x) Fx(x)=P(xx)
这里的 F x F_{\text x} Fx是一个单调递增的函数,如果 F x F_{\text x} Fx连续,则称随机变量 x \text x x连续型随机变量。假设 F x F_{\text x} Fx也是可微的,则定义 x \text x x概率密度函数(PDF)
p x ( x ) = d F x ( x ) d x p_{\text x}(x)=\frac{dF_{\text x}(x)}{dx} px(x)=dxdFx(x)
这样可以得到:
P ( x 1 < x ≤ x 2 ) = ∫ x 1 x 2 p x ( x ) d x P(x_1<\text x \le x2)=\int_{x1}^{x2}p_{\text x}(x)dx P(x1<xx2)=x1x2px(x)dx
同时有:
F x ( x ) = ∫ − ∞ x p x ( z ) d z F_{\text x}(x)=\int_{-\infty}^{x}p_{\text x}(z)dz Fx(x)=xpx(z)dz
从微积分的角度来看,PDF可以解释为:
Δ P ( x < x ≤ x + Δ x ) Δ x ≈ p x ( x ) \frac{\Delta P(x<\text x \le x + \Delta x)}{ \Delta x} \approx p_{\text x}(x) ΔxΔP(x<xx+Δx)px(x)
“一段小区间中的概率除以这段区间的长度”,这就是一种“密度”。(类似于质量除以体积)。
注意当区间趋近于0时, p x ( x ) Δ x p_{\text x}(x)\Delta x px(x)Δx也趋近于0,所以,连续随机变量任意取单个值的概率为0.

你可能感兴趣的:(math,概率论)