参考:datawhalechina/team-learning
随机试验 E E E的样本空间为 Ω \Omega Ω,对于每个事件 A A A,定义一个实数 P ( A ) P(A) P(A)与之对应,若函数 P ( . ) P(.) P(.)满足条件:
非负性:对每个事件 A A A,均有 0 < = P ( A ) < = 1 0<=P(A)<=1 0<=P(A)<=1;
规范性:对于必然事件S, 有 P ( S ) = 1 P(S)=1 P(S)=1;
可列可加性:若事件 A 1 , A 2 , A 3 , . . . A_1,A_2,A_3,... A1,A2,A3,...两两互斥,即对于 i , j = 1 , 2 , . . . , i ≠ j , A i ∩ A j = ϕ i,j=1,2,...,i \neq j ,A_i \cap A_j = \phi i,j=1,2,...,i=j,Ai∩Aj=ϕ,均有
P ( A 1 ∪ A 2 ∪ . . . ) = P ( A 1 ) + P ( A 2 ) + . . . P(A_1 \cup A_2 \cup ...)=P(A_1) +P(A_2) +... P(A1∪A2∪...)=P(A1)+P(A2)+...
P ( A ) = m n = 事 件 A 包 含 的 基 本 事 件 数 基 本 事 件 总 数 P(A) = \frac{m} {n} = \frac{事件A包含的基本事件数} {基本事件总数} P(A)=nm=基本事件总数事件A包含的基本事件数。
例题: 假设有 k k k 个不同颜色的球,每个球以同样的概率 1 / l 1/l 1/l 落到 l l l 个格子 ( l > = k ) (l>=k) (l>=k) 的每个中,且每个格子可容纳任意多个球。问,分别求出如下两个事件 A A A 和 B B B 的概率。
40个同学中至少两个人同一天过生日的概率是:(把一年作为365天):
L=365 k=40 带入 P ( B ) = C l k ∗ k ! l k = l ! l k ∗ ( l − k ) ! P(B) = \frac {C^k_l*k!} {l^k} = \frac {l!} {l^k*(l-k)!} P(B)=lkClk∗k!=lk∗(l−k)!l!
#我们采用函数的递归的方法计算阶乘:
def factorial(n):
if n == 0:
return 1;
else:
return (n*factorial(n-1))
l_fac = factorial(365); #l的阶乘
l_k_fac = factorial(365-40) #l-k的阶乘
l_k_exp = 365**40 #l的k次方
P_B = l_fac /(l_k_fac * l_k_exp) #P(B)
print("事件B的概率为:",P_B)
print("40个同学中至少两个人同一天过生日的概率是:",1 - P_B)
定义: 设 A A A 和 B B B 是两个事件,且 P ( B ) > 0 P(B)>0 P(B)>0,称 P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B) = \frac {P(AB)} {P(B)} P(A∣B)=P(B)P(AB) 为在事件 B B B 发生的条件下,事件 A A A 发生的概率。
例子:某集体中有 N N N 个男人和 M M M 个女人,其中患色盲者男性 n n n 人,女性 m m m 人。我们用 Ω \Omega Ω 表示该集体, A A A 表示其中全体女性的集合, B B B 表示其中全体色盲者的集合。如果从 Ω \Omega Ω 中随意抽取一人,则这个人分别是女性、色盲者和同时既为女性又是色盲者的概率分别为:
P ( A ) = M M + N , P ( B ) = m + n M + N , P ( A B ) = m M + N P(A) = \frac {M} {M+N} , P(B) = \frac {m+n} {M+N} , P(AB) = \frac {m} {M+N} P(A)=M+NM,P(B)=M+Nm+n,P(AB)=M+Nm
如果限定只从女性中随机抽取一人**(即事件 A A A 已发生),那么这个女人为色盲者的(条件)**概率为
P ( B ∣ A ) = m M = P ( A B ) P ( A ) P(B|A) = \frac {m} {M} = \frac {P(AB)} {P(A)} P(B∣A)=Mm=P(A)P(AB)
设 B 1 , B 2 , . . . B_1,B_2,... B1,B2,...是样本空间 Ω \Omega Ω 的一个划分, A A A 为任一事件,则
P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) P(A) = \sum_{i=1}^{\infty } {P(B_i)}P(A|B_i) P(A)=∑i=1∞P(Bi)P(A∣Bi)
称为全概率公式。
设 B 1 , B 2 , . . . B_1,B_2,... B1,B2,...是样本空间 Ω \Omega Ω 的一个划分,则对任一事件 A ( P ( A ) > 0 ) A(P(A)>0) A(P(A)>0) ,有
P ( B i ∣ A ) = P ( B i A ) P ( A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 ∞ P ( B j ) P ( A ∣ B j ) , i = 1 , 2 , . . . P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} ,i=1,2,... P(Bi∣A)=P(A)P(BiA)=∑j=1∞P(Bj)P(A∣Bj)P(A∣Bi)P(Bi),i=1,2,...
称上式为贝叶斯公式,称 P ( B i ) ( i = 1 , 2 , . . . ) P(B_i)(i=1,2,...) P(Bi)(i=1,2,...) 为先验概率, P ( B i ∣ A ) ( i = 1 , 2 , . . . ) P(B_i|A)(i=1,2,...) P(Bi∣A)(i=1,2,...)为后验概率。
定义:设 E E E 是随机试验, Ω \Omega Ω 是样本空间,如果对于每一个 ω ∈ Ω \omega \in \Omega ω∈Ω 。都有一个确定的实数 X ( ω ) X(\omega) X(ω) 与之对应,若对于任意实 x ∈ R x \in R x∈R , 有 { ω : X ( ω ) < x } ∈ F \{\omega :X(\omega) < x \} \in F {ω:X(ω)<x}∈F ,则称 Ω \Omega Ω 上的单值实函数 X ( ω ) X(\omega) X(ω) 为一个随机变量。
随机变量的分布函数定义:设 X X X 是一个随机变量,对任意的实数 x x x ,令
F ( x ) = P { X < = x } , x ∈ ( − ∞ , + ∞ ) F(x) = P \{ X<=x\} ,x \in (- \infty ,+ \infty) F(x)=P{X<=x},x∈(−∞,+∞)
则称 F ( x ) F(x) F(x) 为随机变量 x x x 的分布函数,也称为概率累积函数。
定义: 如果随机变量 X X X 的全部可能取值只有有限多个或可列无穷多个,则称 X X X 为离散型随机变量。掷骰子的结果就是离散型随机变量。
对于离散型随机变量 X X X 可能取值为 x k x_k xk的概率为:
P { X = x k } = p k , k = 1 , 2 , . . . P \{ X =x_k \} =p_k,k=1,2,... P{X=xk}=pk,k=1,2,...
则称上式为离散型随机变量 X X X 的分布律。
P ( A ) = p , P ( A ‾ ) = 1 − p = q P(A) = p,P(\overline A) =1-p=q P(A)=p,P(A)=1−p=q
其中, 0 < p < 1 0 0<p<1
若随机变量 X X X 的分布律为:
P { X = k } = C n k p k ( 1 − p ) n − k , k = 0 , 1 , 2 , . . . n . P \{ X =k \} =C^k_np^k(1-p)^{n-k},k=0,1,2,...n. P{X=k}=Cnkpk(1−p)n−k,k=0,1,2,...n.
离散型求数学期望: E ( X ) = ∑ i x i p i E(X) = \sum_{i} {x_ip_i} E(X)=∑ixipi
连续性求数学期望: E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)= \int_{- \infty}^{+ \infty}{xf(x)}dx E(X)=∫−∞+∞xf(x)dx
数学期望代表了随机变量取值的平均值,是一个重要的数字特征。数学期望具有如下性质:
V a r ( X ) = E { [ X − E ( X ) ] 2 } Var (X) =E\{ [X-E(X)]^2\} Var(X)=E{[X−E(X)]2}
并且称 V a r ( X ) \sqrt{Var(X)} Var(X) 为 X X X 的标准差或均方差。
方差是用来描述随机变量取值相对于均值的离散程度的一个量,也是非常重要的数字特征。方差有如下性质:
协方差和相关系数都是描述随机变量 X X X 与随机变量 Y Y Y 之间的线性联系程度的数字量。
C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X, Y) = E\{ [X-E(X)] [Y-E(Y)]\} Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
相关系数: ρ ( X , Y ) = C o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho(X,Y) = \frac{Cov(X,Y)}{\sqrt {Var(X)} \sqrt {Var(Y)}} ρ(X,Y)=Var(X)Var(Y)Cov(X,Y)
基本上我们都会用相关系数来衡量两个变量之间的相关程度。相关系数在-1到1之间,小于零表示负相关,大于零表示正相关。绝对值 ∣ ρ ( X , Y ) ∣ |\rho(X,Y)| ∣ρ(X,Y)∣ 表示相关度的大小。越接近1,相关度越大。
p = 0.5 # 事件发生概率
n = 2 # 事件发生总次数
k = 2 # 事件成功总次数
#采用函数的递归的方法计算阶乘:
def factorial(n):
if n == 0:
return 1;
else:
return (n*factorial(n-1))
arr= [n, p, k,]
P_A = factorial(arr[0]) /(factorial(arr[2])*factorial(arr[0]-arr[2])) * (p**k*((1-p)**(n-k))) #P(A)
print("事件A的概率为:",P_A)
import numpy as np
# 随机生成两个样本
x = np.random.randint(0, 9, 10)
y = np.random.randint(0, 9, 10)
np.cov(x,y) # 协方差
# array([[6.23333333, 1.81111111],
# [1.81111111, 6.76666667]])
# array([[COV(x,x), COV(x,y)],
# [COV(y,x), COV(y,y) ]])
np.corrcoef(x, y) # 相关系数
# array([[1. , 0.27886726],
# [0.27886726, 1. ]])
例题:假定用血清甲胎蛋白法诊断肝癌。用 C C C 表示被检验者有肝癌这一事件,用 A A A 表示被检验者为阳性反应这一事件。当前有肝癌的患者被检测呈阳性反应的概率为0.95。即 P ( A ∣ C ) = 0.95 P(A|C) = 0.95 P(A∣C)=0.95 。当前非肝癌的患者被检测呈阴性反应的概率为0.9。即 P ( A ‾ ∣ C ‾ ) = 0.90 P(\overline {A}|\overline {C}) = 0.90 P(A∣C)=0.90 。若某人群中肝癌患者概率为0.0004,即 P ( C ) = 0.0004 P(C) = 0.0004 P(C)=0.0004,现在有一人呈阳性反应,求此人确为肝癌患者的概率是多少?
def calculateTrustDegree(P_C):
PC_A = float(P_C*PA_C)/((1-PA_C_)*(1-P_C)+P_C*PA_C)
return PC_A
PA_C = 0.95
PA_C_ = 0.90
P_C = 0.0004
print(calculateTrustDegree(P_C))
# 0.003787123779150888