概率统计基础

概率统计

参考:datawhalechina/team-learning

概率定义

随机试验 E E E的样本空间为 Ω \Omega Ω,对于每个事件 A A A,定义一个实数 P ( A ) P(A) P(A)与之对应,若函数 P ( . ) P(.) P(.)满足条件:

  1. 非负性:对每个事件 A A A,均有 0 < = P ( A ) < = 1 0<=P(A)<=1 0<=P(A)<=1;

  2. 规范性:对于必然事件S, 有 P ( S ) = 1 P(S)=1 P(S)=1;

  3. 可列可加性:若事件 A 1 , A 2 , A 3 , . . . A_1,A_2,A_3,... A1,A2,A3,...两两互斥,即对于 i , j = 1 , 2 , . . . , i ≠ j , A i ∩ A j = ϕ i,j=1,2,...,i \neq j ,A_i \cap A_j = \phi ij=1,2,...i=j,AiAj=ϕ,均有

    P ( A 1 ∪ A 2 ∪ . . . ) = P ( A 1 ) + P ( A 2 ) + . . . P(A_1 \cup A_2 \cup ...)=P(A_1) +P(A_2) +... P(A1A2...)=P(A1)+P(A2)+...

主要性质

  • 对立事件: P ( A ‾ ) = 1 − P ( A ) P(\overline{A})=1-P(A) P(A)=1P(A).
  • 减法: P ( B − A ) = P ( B ) − P ( A ∩ B ) P(B-A) = P(B) - P(A\cap B) P(BA)=P(B)P(AB).
  • 加法: P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A \cup B) = P(A) + P(B) - P(A\cap B) P(AB)=P(A)+P(B)P(AB).

古典概型

P ( A ) = m n = 事 件 A 包 含 的 基 本 事 件 数 基 本 事 件 总 数 P(A) = \frac{m} {n} = \frac{事件A包含的基本事件数} {基本事件总数} P(A)=nm=A

例题: 假设有 k k k 个不同颜色的球,每个球以同样的概率 1 / l 1/l 1/l 落到 l l l 个格子 ( l > = k ) (l>=k) (l>=k) 的每个中,且每个格子可容纳任意多个球。问,分别求出如下两个事件 A A A B B B 的概率。

  • A A A :指定的 k k k 个格子中各有一个球; P ( A ) = k ! l k P(A) = \frac{k!} {l^k} P(A)=lkk!
  • B B B :存在 k k k 个格子,其中各有一个球。 P ( B ) = C l k ∗ k ! l k = l ! l k ∗ ( l − k ) ! P(B) = \frac {C^k_l*k!} {l^k} = \frac {l!} {l^k*(l-k)!} P(B)=lkClkk=lklk!l

生日问题

40个同学中至少两个人同一天过生日的概率是:(把一年作为365天):

L=365 k=40 带入 P ( B ) = C l k ∗ k ! l k = l ! l k ∗ ( l − k ) ! P(B) = \frac {C^k_l*k!} {l^k} = \frac {l!} {l^k*(l-k)!} P(B)=lkClkk=lklk!l

#我们采用函数的递归的方法计算阶乘:
def factorial(n):
    if n == 0:
        return 1;
    else:
        return (n*factorial(n-1)) 
    
l_fac = factorial(365);          #l的阶乘
l_k_fac = factorial(365-40)      #l-k的阶乘
l_k_exp = 365**40                #l的k次方

P_B =  l_fac /(l_k_fac * l_k_exp)     #P(B)
print("事件B的概率为:",P_B)
print("40个同学中至少两个人同一天过生日的概率是:",1 - P_B)

条件概率

定义: 设 A A A B B B 是两个事件,且 P ( B ) > 0 P(B)>0 P(B)>0,称 P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B) = \frac {P(AB)} {P(B)} P(AB)=P(B)P(AB) 为在事件 B B B 发生的条件下,事件 A A A 发生的概率。

例子:某集体中有 N N N 个男人和 M M M 个女人,其中患色盲者男性 n n n 人,女性 m m m 人。我们用 Ω \Omega Ω 表示该集体, A A A 表示其中全体女性的集合, B B B 表示其中全体色盲者的集合。如果从 Ω \Omega Ω 中随意抽取一人,则这个人分别是女性、色盲者和同时既为女性又是色盲者的概率分别为:

P ( A ) = M M + N , P ( B ) = m + n M + N , P ( A B ) = m M + N P(A) = \frac {M} {M+N} , P(B) = \frac {m+n} {M+N} , P(AB) = \frac {m} {M+N} P(A)=M+NM,P(B)=M+Nm+n,P(AB)=M+Nm

如果限定只从女性中随机抽取一人**(即事件 A A A 已发生),那么这个女人为色盲者的(条件)**概率为

P ( B ∣ A ) = m M = P ( A B ) P ( A ) P(B|A) = \frac {m} {M} = \frac {P(AB)} {P(A)} P(BA)=Mm=P(A)P(AB)

  • 乘法公式: P ( A B ) = P ( B ∣ A ) P ( A ) = P ( A ∣ B ) P ( B ) P(AB)=P(B|A)P(A) =P(A|B)P(B) P(AB)=P(BA)P(A)=P(AB)P(B)

全概率公式

B 1 , B 2 , . . . B_1,B_2,... B1,B2,...是样本空间 Ω \Omega Ω 的一个划分, A A A 为任一事件,则

P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) P(A) = \sum_{i=1}^{\infty } {P(B_i)}P(A|B_i) P(A)=i=1P(Bi)P(ABi)

称为全概率公式。

贝叶斯公式

B 1 , B 2 , . . . B_1,B_2,... B1,B2,...是样本空间 Ω \Omega Ω 的一个划分,则对任一事件 A ( P ( A ) > 0 ) A(P(A)>0) A(P(A)>0) ,有

P ( B i ∣ A ) = P ( B i A ) P ( A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 ∞ P ( B j ) P ( A ∣ B j ) , i = 1 , 2 , . . . P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} ,i=1,2,... P(BiA)=P(A)P(BiA)=j=1P(Bj)P(ABj)P(ABi)P(Bi),i=1,2,...

称上式为贝叶斯公式,称 P ( B i ) ( i = 1 , 2 , . . . ) P(B_i)(i=1,2,...) P(Bi)(i=1,2,...) 为先验概率, P ( B i ∣ A ) ( i = 1 , 2 , . . . ) P(B_i|A)(i=1,2,...) P(BiA)i=1,2,...为后验概率。

随机变量

定义:设 E E E 是随机试验, Ω \Omega Ω 是样本空间,如果对于每一个 ω ∈ Ω \omega \in \Omega ωΩ 。都有一个确定的实数 X ( ω ) X(\omega) X(ω) 与之对应,若对于任意实 x ∈ R x \in R xR , 有 { ω : X ( ω ) < x } ∈ F \{\omega :X(\omega) < x \} \in F {ωX(ω)<x}F ,则称 Ω \Omega Ω 上的单值实函数 X ( ω ) X(\omega) X(ω) 为一个随机变量。

随机变量的分布函数定义:设 X X X 是一个随机变量,对任意的实数 x x x ,令
F ( x ) = P { X < = x } , x ∈ ( − ∞ , + ∞ ) F(x) = P \{ X<=x\} ,x \in (- \infty ,+ \infty) F(x)=P{X<=x},x(,+)
则称 F ( x ) F(x) F(x) 为随机变量 x x x 的分布函数,也称为概率累积函数。

离散型随机变量

定义: 如果随机变量 X X X 的全部可能取值只有有限多个或可列无穷多个,则称 X X X 为离散型随机变量。掷骰子的结果就是离散型随机变量。

​ 对于离散型随机变量 X X X 可能取值为 x k x_k xk的概率为:
P { X = x k } = p k , k = 1 , 2 , . . . P \{ X =x_k \} =p_k,k=1,2,... P{X=xk}=pk,k=1,2,...
则称上式为离散型随机变量 X X X 的分布律。

常见的离散型分布

.伯努利实验,二项分布
  • 定义:如果一个随机试验只有两种可能的结果 A A A A ‾ \overline A A,并且

P ( A ) = p , P ( A ‾ ) = 1 − p = q P(A) = p,P(\overline A) =1-p=q P(A)=pP(A)=1p=q

其中, 0 < p < 1 00<p<1 ,则称此试验为Bernoulli(伯努利)试验. Bernoulli试验独立重复进行 n n n 次,称为 n n n 重伯努利试验。

若随机变量 X X X 的分布律为:
P { X = k } = C n k p k ( 1 − p ) n − k , k = 0 , 1 , 2 , . . . n . P \{ X =k \} =C^k_np^k(1-p)^{n-k},k=0,1,2,...n. P{X=k}=Cnkpk(1p)nk,k=0,1,2,...n.

随机变量的数字特征

1.数学期望

离散型求数学期望: E ( X ) = ∑ i x i p i E(X) = \sum_{i} {x_ip_i} E(X)=ixipi

连续性求数学期望: E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)= \int_{- \infty}^{+ \infty}{xf(x)}dx E(X)=+xfxdx

数学期望代表了随机变量取值的平均值,是一个重要的数字特征。数学期望具有如下性质:

  • c c c 是常数,则 E ( c ) = c E(c) =c E(c)=c ;
  • E ( a X + b Y ) = a E ( X ) + b E ( Y ) E(aX+bY) = aE(X) +bE(Y) E(aX+bY)=aE(X)+bE(Y) , 其中a, b为任意常数;
  • X , Y X, Y X,Y 相互独立,则 E ( X Y ) = E ( X ) E ( Y ) E(XY) = E(X)E(Y) E(XY)=E(X)E(Y) ; (相互独立就是没有关系,不相互影响)。

2.方差

V a r ( X ) = E { [ X − E ( X ) ] 2 } Var (X) =E\{ [X-E(X)]^2\} VarX=E{[XE(X)]2}

并且称 V a r ( X ) \sqrt{Var(X)} Var(X) X X X 的标准差或均方差。

方差是用来描述随机变量取值相对于均值的离散程度的一个量,也是非常重要的数字特征。方差有如下性质:

  1. c c c 是常数,则 V a r ( c ) = 0 Var(c) =0 Var(c)=0 ;
  2. V a r ( a X + b ) = a 2 E ( X ) Var(aX+b) = a^2E(X) Var(aX+b)=a2E(X) , 其中a, b为任意常数;
  3. X , Y X, Y X,Y 相互独立,则 V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) Var(X+Y) = Var(X) +Var(Y) Var(X+Y)=Var(X)+Var(Y)

协方差和相关系数

协方差和相关系数都是描述随机变量 X X X 与随机变量 Y Y Y 之间的线性联系程度的数字量。

C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X, Y) = E\{ [X-E(X)] [Y-E(Y)]\} Cov(X,Y)=E{[XE(X)][YE(Y)]}

相关系数: ρ ( X , Y ) = C o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho(X,Y) = \frac{Cov(X,Y)}{\sqrt {Var(X)} \sqrt {Var(Y)}} ρX,Y=Var(X) Var(Y) Cov(XY)

基本上我们都会用相关系数来衡量两个变量之间的相关程度。相关系数在-1到1之间,小于零表示负相关,大于零表示正相关。绝对值 ∣ ρ ( X , Y ) ∣ |\rho(X,Y)| ρX,Y 表示相关度的大小。越接近1,相关度越大。

python实现二项分布,协方差和相关系数以及贝叶斯公式

二项分布

p = 0.5   # 事件发生概率
n = 2     # 事件发生总次数
k = 2     # 事件成功总次数

#采用函数的递归的方法计算阶乘:
def factorial(n):
    if n == 0:
        return 1;
    else:
        return (n*factorial(n-1)) 
arr= [n, p, k,]

P_A =  factorial(arr[0]) /(factorial(arr[2])*factorial(arr[0]-arr[2])) * (p**k*((1-p)**(n-k)))     #P(A)
print("事件A的概率为:",P_A)  

协方差和相关系数

import numpy as np

# 随机生成两个样本
x = np.random.randint(0, 9, 10)
y = np.random.randint(0, 9, 10)
np.cov(x,y)  # 协方差
# array([[6.23333333, 1.81111111],    
#       [1.81111111, 6.76666667]])  
# array([[COV(x,x), COV(x,y)],    
#       [COV(y,x), COV(y,y) ]])  

np.corrcoef(x, y)   # 相关系数
# array([[1.        , 0.27886726],
#       [0.27886726, 1.        ]])

贝叶斯公式

例题:假定用血清甲胎蛋白法诊断肝癌。用 C C C 表示被检验者有肝癌这一事件,用 A A A 表示被检验者为阳性反应这一事件。当前有肝癌的患者被检测呈阳性反应的概率为0.95。即 P ( A ∣ C ) = 0.95 P(A|C) = 0.95 P(AC)=0.95 。当前非肝癌的患者被检测呈阴性反应的概率为0.9。即 P ( A ‾ ∣ C ‾ ) = 0.90 P(\overline {A}|\overline {C}) = 0.90 P(AC)=0.90 。若某人群中肝癌患者概率为0.0004,即 P ( C ) = 0.0004 P(C) = 0.0004 P(C)=0.0004,现在有一人呈阳性反应,求此人确为肝癌患者的概率是多少?

  • 求出检验者为阳事件 P ( A ) P(A) P(A)概率(全概率公式)
  • 条件概率
  • P ( C ∣ A ) = P ( C ) P ( A ∣ C ) P ( C ) P ( A ∣ C ) + P ( C ‾ ) P ( A ∣ C ‾ ) = 0.0004 ∗ 0.95 0.0004 ∗ 0.95 + 0.9996 ∗ 0.1 = 0.0038 P(C|A) = \frac {P(C)P(A|C)} {P(C)P(A|C)+P(\overline {C} )P(A|\overline {C})} =\frac {0.0004*0.95}{0.0004*0.95 + 0.9996*0.1} =0.0038 P(CA)=P(C)P(AC)+P(C)P(AC)P(C)P(AC)=0.00040.95+0.99960.10.00040.95=0.0038
def calculateTrustDegree(P_C):
  PC_A = float(P_C*PA_C)/((1-PA_C_)*(1-P_C)+P_C*PA_C)
  return PC_A
PA_C = 0.95
PA_C_ = 0.90
P_C = 0.0004
print(calculateTrustDegree(P_C))
# 0.003787123779150888

你可能感兴趣的:(#python)