随机试验中所有可能的结果(样本点)组成的集合。
随机试验的样本空间的子集,即样本点的集合。
事件A发生的条件下事件B发生的概率,记: P ( B ∣ A ) = P ( A B ) P ( A ) , P ( A ) ≥ 0 P(B|A)=\frac{P(AB)}{P(A)} {,P(A)\geq0} P(B∣A)=P(A)P(AB),P(A)≥0推广,乘法定理: P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(AB)=P(A)P(B|A)=P(B)P(A|B) P(AB)=P(A)P(B∣A)=P(B)P(A∣B)
理解:
假设甲、乙、丙三个工厂生产了一批产品,事件 A A A为“产品是甲厂生产的”,事件 B B B为“产品是正品”,从中任取一件产品,
P ( A B ) : 取 得 的 产 品 是 甲 厂 生 产 且 为 正 品 的 概 率 P(AB):取得的产品是甲厂生产且为正品的概率 P(AB):取得的产品是甲厂生产且为正品的概率
P ( B ∣ A ) : 已 知 取 得 的 产 品 为 甲 厂 生 产 , 产 品 为 正 品 的 概 率 P(B|A):已知取得的产品为甲厂生产,产品为正品的概率 P(B∣A):已知取得的产品为甲厂生产,产品为正品的概率
P ( A ) : 取 得 的 产 品 是 甲 厂 生 产 的 概 率 P(A):取得的产品是甲厂生产的概率 P(A):取得的产品是甲厂生产的概率
P ( B ∣ A ) = 甲 厂 生 产 的 正 品 件 数 甲 厂 生 产 的 总 产 品 数 = 甲 厂 生 产 的 正 品 件 数 / 总 产 品 数 甲 厂 生 产 的 总 产 品 数 / 总 产 品 数 = P ( A B ) P ( A ) P(B|A)=\frac{甲厂生产的正品件数}{甲厂生产的总产品数}=\frac{甲厂生产的正品件数/总产品数}{甲厂生产的总产品数/总产品数}=\frac{P(AB)}{P(A)} P(B∣A)=甲厂生产的总产品数甲厂生产的正品件数=甲厂生产的总产品数/总产品数甲厂生产的正品件数/总产品数=P(A)P(AB)
设随机试验 E E E的样本空间为 S S S, B 1 , B 2 , ⋅ ⋅ ⋅ , B n B_1,B_2,···,B_n B1,B2,⋅⋅⋅,Bn是样本空间 S S S的一个划分,且 P ( B i ) > 0 , i = 1 , 2 , ⋅ ⋅ ⋅ , n P(B_i)>0,i=1,2,···,n P(Bi)>0,i=1,2,⋅⋅⋅,n,则对于任一事件 A A A,有 P ( A ) = P ( B 1 ) P ( A ∣ B 1 ) + P ( B 2 ) P ( A ∣ B 2 ) + P ( A ) P ( A ∣ B 3 ) + ⋅ ⋅ ⋅ + P ( A ) P ( A ∣ B n ) P(A)=P(B_1)P(A|B_1)+P(B_2)P(A|B_2)+P(A)P(A|B_3)+···+P(A)P(A|B_n) P(A)=P(B1)P(A∣B1)+P(B2)P(A∣B2)+P(A)P(A∣B3)+⋅⋅⋅+P(A)P(A∣Bn)此式就是全概率公式,即
P ( A ) = ∑ i = 1 n P ( B i ) P ( A ∣ B i ) P(A)=\sum_{i=1}^nP(B_i)P(A|B_i) P(A)=i=1∑nP(Bi)P(A∣Bi)
理解:
假设甲、乙、丙三个工厂生产了一批产品,事件A为“这件产品是正品”,事件 B 1 , B 2 , B 3 B_1,B_2,B_3 B1,B2,B3分别为“这件产品是甲厂、乙厂、丙厂生产的”,从中任取一件产品,求这件产品为正品的概率。
P ( A ) = 甲 厂 正 品 数 + 乙 厂 正 品 数 + 丙 厂 正 品 数 总 产 品 数 = 甲 厂 正 品 数 总 正 品 数 + 乙 厂 正 品 数 总 正 品 数 + 丙 厂 正 品 数 总 正 品 数 = P ( A B 1 ) + P ( A B 2 ) + P ( A B 3 ) = P ( B 1 ) P ( A ∣ B 1 ) + P ( B 2 ) P ( A ∣ B 2 ) + P ( A ) P ( A ∣ B 3 ) P(A)=\frac{甲厂正品数+乙厂正品数+丙厂正品数}{总产品数}=\frac{甲厂正品数}{总正品数}+\frac{乙厂正品数}{总正品数}+\frac{丙厂正品数}{总正品数}=P(AB_1)+P(AB_2)+P(AB_3)=P(B_1)P(A|B_1)+P(B_2)P(A|B_2)+P(A)P(A|B_3) P(A)=总产品数甲厂正品数+乙厂正品数+丙厂正品数=总正品数甲厂正品数+总正品数乙厂正品数+总正品数丙厂正品数=P(AB1)+P(AB2)+P(AB3)=P(B1)P(A∣B1)+P(B2)P(A∣B2)+P(A)P(A∣B3)
即 P ( A ) = ∑ B P ( A B ) , 离 散 P(A)=\sum_BP(AB),{离散} P(A)=B∑P(AB),离散 P ( A ) = ∫ P ( A B ) d B , 连 续 P(A)=\int{P(AB)}dB,{连续} P(A)=∫P(AB)dB,连续
根据条件概率公式
P ( A ) = ∑ B P ( B ) P ( A ∣ B ) P(A)=\sum_BP(B)P(A|B) P(A)=B∑P(B)P(A∣B)
设随机试验 E E E的样本空间为 S S S, B 1 , B 2 , ⋅ ⋅ ⋅ , B n B_1,B_2,···,B_n B1,B2,⋅⋅⋅,Bn是样本空间 S S S的一个划分,且 P ( B i ) > 0 , i = 1 , 2 , ⋅ ⋅ ⋅ , n P(B_i)>0,i=1,2,···,n P(Bi)>0,i=1,2,⋅⋅⋅,n,对于任意事件 A A A,有 P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^nP(B_j)P(A|B_j)} P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
这就是著名的贝叶斯公式。
贝叶斯公式的推导有很多,下面从乘法公式入手:
P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(AB)=P(A)P(B|A)=P(B)P(A|B) P(AB)=P(A)P(B∣A)=P(B)P(A∣B)
P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P ( A ) = p e r i o r + l i k e l i h o o d e v i d e n c e P(B|A)=\frac{P(B)P(A|B)}{P(A)}=\frac{perior+likelihood}{evidence} P(B∣A)=P(A)P(B)P(A∣B)=evidenceperior+likelihood
理解1:
假设甲、乙、丙三个工厂生产了一批产品,事件A为“这件产品是正品”,事件 B 1 , B 2 , B 3 B_1,B_2,B_3 B1,B2,B3分别为“这件产品是甲厂、乙厂、丙厂生产的”,从中任取一件产品,已知这件产品为正品,求是甲厂生产的概率。
P ( B 1 ∣ A ) : 已 知 产 品 为 正 品 且 产 品 是 甲 厂 生 产 的 概 率 , 后 验 概 率 P(B_1|A):已知产品为正品且产品是甲厂生产的概率,后验概率 P(B1∣A):已知产品为正品且产品是甲厂生产的概率,后验概率
P ( A ∣ B 1 ) : 甲 厂 的 正 品 率 , 似 然 概 率 P(A|B_1):甲厂的正品率,似然概率 P(A∣B1):甲厂的正品率,似然概率
P ( B 1 ) : 抽 取 的 产 品 是 甲 厂 生 产 的 概 率 , 先 验 概 率 P(B_1):抽取的产品是甲厂生产的概率,先验概率 P(B1):抽取的产品是甲厂生产的概率,先验概率
P ( B 1 ∣ A ) = 甲 厂 生 产 的 正 品 数 总 正 品 数 = 甲 厂 生 产 的 正 品 数 / 总 产 品 数 ( 甲 正 品 数 + 乙 正 品 数 + 丙 正 品 数 ) / 总 产 品 数 = P ( A B 1 ) P ( A B 1 ) + P ( A B 2 ) + P ( A B 3 ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 3 P ( B j ) P ( A ∣ B j ) P(B_1|A)=\frac{甲厂生产的正品数}{总正品数}=\frac{甲厂生产的正品数/总产品数}{(甲正品数+乙正品数+丙正品数)/总产品数}=\frac{P(AB_1)}{P(AB_1)+P(AB_2)+P(AB_3)}=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^3P(B_j)P(A|B_j)} P(B1∣A)=总正品数甲厂生产的正品数=(甲正品数+乙正品数+丙正品数)/总产品数甲厂生产的正品数/总产品数=P(AB1)+P(AB2)+P(AB3)P(AB1)=∑j=13P(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
理解2:
P ( B ∣ A ) = P ( A ∣ B ) P ( A ) × P ( B ) P(B|A)=\frac{P(A|B)}{P(A)}\times{P(B)} P(B∣A)=P(A)P(A∣B)×P(B)
其中, P ( A ∣ B ) P ( A ) \frac{P(A|B)}{P(A)} P(A)P(A∣B)作为参数对 P ( B ) P(B) P(B)进行修正,转换为 A A A条件下 B B B的概率,即当甲厂正品率越高时, P ( A ∣ B ) P(A|B) P(A∣B)越大,抽中的正品是甲厂生产的概率 P ( B ∣ A ) P(B|A) P(B∣A)也越大。
理解3:
P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P ( A ) P(B|A)=\frac{P(B)P(A|B)}{P(A)} P(B∣A)=P(A)P(B)P(A∣B)两边关于B求和:
∑ B P ( B ∣ A ) = ∑ B P ( B ) P ( A ∣ B ) P ( A ) \sum_B{P(B|A)}=\sum_B{\frac{P(B)P(A|B)}{P(A)}} B∑P(B∣A)=B∑P(A)P(B)P(A∣B)
1 = ∑ B P ( A B ) P ( A ) = P ( A ) P ( A ) 1=\sum_B{\frac{P(AB)}{P(A)}}=\frac{P(A)}{P(A)} 1=B∑P(A)P(AB)=P(A)P(A)
也可以理解为, P ( A ) P(A) P(A)是与 B B B无关的常数,为了保证等式左边求和等于1,在 P ( A B ) P(AB) P(AB)下面做归一化处理,即除以 P ( A ) P(A) P(A),因为 P ( A B ) P(AB) P(AB)即 P ( B ) P ( A ∣ B ) P(B)P(A|B) P(B)P(A∣B)关于 B B B的总和就是 P ( A ) P(A) P(A),以保证等式左右两边相等。
归一化:
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^nP(B_j)P(A|B_j)} P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)
P ( B i ∣ A ) = η P ( B i ) P ( A ∣ B i ) , 其 中 , η − 1 = ∑ j = 1 n P ( B j ) P ( A ∣ B j ) P(B_i|A)=\eta{P(B_i)P(A|B_i)},{其中,\eta^{-1}=\sum_{j=1}^nP(B_j){P(A|B_j)}} P(Bi∣A)=ηP(Bi)P(A∣Bi),其中,η−1=j=1∑nP(Bj)P(A∣Bj)
理解4:向贝叶斯公式增加随机变量:
当向上述贝叶斯公式中添加变量时,容易求得,下面公式也是成立的,为了和《概率机器人》统一,用 x , y x,y x,y替换上述 A , B A,B A,B:
P ( x ∣ y , z ) = P ( y ∣ x , z ) P ( x ∣ z ) P ( y ∣ z ) P(x|y,z)=\frac{P(y|x,z)P(x|z)}{P(y|z)} P(x∣y,z)=P(y∣z)P(y∣x,z)P(x∣z)
可以这样粗略理解,由于 ∑ x P ( x ) = 1 \sum_xP(x)=1 ∑xP(x)=1,可得 ∑ x P ( x ∣ y ) = 1 \sum_xP(x|y)=1 ∑xP(x∣y)=1
在概率论中,我们讨论的独立是: P ( A B ) = P ( B ∣ A ) P ( A ) = P ( B ) P ( A ) P(AB)=P(B|A)P(A)=P(B)P(A) P(AB)=P(B∣A)P(A)=P(B)P(A)
即事件 A A A的发生不会影响事件 B B B发生的可能性。
条件独立:
类似的,以其他变量 z z z为条件下的,相互独立的 x , y x,y x,y的联合概率公式:
P ( x , y ∣ z ) = P ( x ∣ z ) P ( y ∣ z ) P(x,y|z)=P(x|z)P(y|z) P(x,y∣z)=P(x∣z)P(y∣z)
等价于:
P ( x ∣ z ) = P ( x ∣ y , z ) P(x|z)=P(x|y,z) P(x∣z)=P(x∣y,z)
P ( y ∣ z ) = P ( y ∣ x , z ) P(y|z)=P(y|x,z) P(y∣z)=P(y∣x,z)
但是,以 z z z为条件的 x , y x,y x,y独立,并不能推出 x , y x,y x,y绝对独立:
P ( x , y ∣ z ) = P ( x ∣ z ) P ( y ∣ z ) ≠ > P ( x , y ) = P ( x ) P ( y ) P(x,y|z)=P(x|z)P(y|z)\neq>P(x,y)=P(x)P(y) P(x,y∣z)=P(x∣z)P(y∣z)=>P(x,y)=P(x)P(y)
随机试验结果所对应的实数值
(1)分布律
离散型随机变量所有可能的取值及其对应的概率
(2)分布函数
随机变量 X X X对任意实数 x x x有:
F ( x ) = P { X ≤ x } , − ∞ < x < + ∞ F(x)=P\{X\leq x\},-\infty
表示随机变量落在某一区间的概率
(3)0-1分布(两点分布)
试验的样本空间只有两个元素
X X X | 0 0 0 | 1 1 1 |
---|---|---|
P P P | 1 − p 1-p 1−p | p p p |
(4)二项分布
试验的结果有两种,独立重复地进行 n n n次称为 n n n重伯努利试验
X ∼ b ( n , p ) : X\sim{b(n,p)} : X∼b(n,p):
P ( X = k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , 2 , ⋅ ⋅ ⋅ , n P(X=k)=C_n^kp^k(1-p)^{n-k},k=0,1,2,···,n P(X=k)=Cnkpk(1−p)n−k,k=0,1,2,⋅⋅⋅,n
(5)泊松分布
随机变量 X X X的取值可以是 1 , 2 , ⋅ ⋅ ⋅ 1,2,··· 1,2,⋅⋅⋅
X ∼ π ( λ ) : X\sim{\pi(\lambda)}: X∼π(λ):
P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , 2 , ⋅ ⋅ ⋅ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,2,··· P(X=k)=k!λke−λ,k=0,1,2,⋅⋅⋅
(1)分布函数及概率密度
对于随机变量 X X X的分布函数 F ( x ) F(x) F(x),若存在非负函数 f ( x ) f(x) f(x),使得对任意 x x x有
F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-\infty}^{x}f(t)dt F(x)=∫−∞xf(t)dt
f ( x ) f(x) f(x)为 x x x的概率密度函数。
(2)均匀分布
X ∼ U ( a , b ) : X\sim{U(a,b)} : X∼U(a,b):
f ( x ) = { 1 b − a , a < x < b 0 , 其 他 f(x) = \begin{cases} \frac{1}{b-a}, & \text{$a
(3)指数分布
随机变量 X X X的概率密度为:
f ( x ) = { 1 θ e − x / θ , a < x < b 0 , 其 他 f(x) = \begin{cases} \frac{1}{\theta}e^{-x/\theta}, & \text{$a
(4)正态分布
X ∼ N ( μ , σ 2 ) : X\sim{N(\mu,\sigma^2)} : X∼N(μ,σ2):
f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < x < + ∞ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}},-\infty
称随机变量 X X X服从参数为 μ \mu μ, σ \sigma σ的正态分布。
离散型随机变量 X X X的分布律为:
P { X = x k } = p k , k = 1 , 2 , ⋅ ⋅ ⋅ , P\{X=x_k\}=p_k,k=1,2,···, P{X=xk}=pk,k=1,2,⋅⋅⋅,
若级数 ∑ k = 1 ∞ x k p k \sum_{k=1}^\infty x_kp_k ∑k=1∞xkpk收敛,
E ( x ) = ∑ k = 1 ∞ x k p k E(x)=\sum_{k=1}^\infty x_kp_k E(x)=k=1∑∞xkpk
E ( x ) = ∫ − ∞ + ∞ x f ( x ) d x E(x)=\int_{-\infty}^{+\infty} xf(x)dx E(x)=∫−∞+∞xf(x)dx
性质:
D ( X ) = E { [ X − E ( X ) ] 2 } D(X)=E\{[X-E(X)]^2\} D(X)=E{[X−E(X)]2}
D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 D(X)=E(X^2)-[E(X)]^2 D(X)=E(X2)−[E(X)]2
性质:
C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X,Y)=E\{[X-E(X)][Y-E(Y)]\} Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
性质:
k k k阶原点矩
E ( X k ) , k = 1 , 2 , ⋅ ⋅ ⋅ E(X^k),k=1,2,··· E(Xk),k=1,2,⋅⋅⋅
k k k阶中心矩
E { [ X − E ( X ) ] k } , k = 1 , 2 , ⋅ ⋅ ⋅ E\{[X-E(X)]^k\},k=1,2,··· E{[X−E(X)]k},k=1,2,⋅⋅⋅
k + l k+l k+l阶混合矩
E { X k Y l } , k , l = 1 , 2 , ⋅ ⋅ ⋅ E\{X^kY^l\},k,l=1,2,··· E{XkYl},k,l=1,2,⋅⋅⋅
k + l k+l k+l阶混合中心矩
E { [ X − E ( X ) ] k [ Y − E ( Y ) ] l } , k , l = 1 , 2 , ⋅ ⋅ ⋅ E\{[X-E(X)]^k[Y-E(Y)]^l\},k,l=1,2,··· E{[X−E(X)]k[Y−E(Y)]l},k,l=1,2,⋅⋅⋅