Datawhale组队学习-概率统计 -task1 随机事件与随机变量

文章目录

    • 一、随机事件
        • 1.基本概念
        • 2.概率
          • 1.定义
          • 2.主要性质
        • 3.古典概型
        • 4.条件概率
          • 定义
        • 5.全概率公式和贝叶斯公式
        • 二、随机变量
          • 1.随机变量及其分布
          • 2.离散型随机变量
        • 3.常见的离散型分布
          • 伯努利实验,二项分布
        • 4.随机变量的数字特征
          • 1.数学期望
          • 2.方差
          • 3.协方差和相关系数
        • 三、后记

一、随机事件

1.基本概念

  • 随机现象是表示一个动作或一件事,在一定条件下,所得结果不能预先完全确定,而只能确定是多种可能结果中的一种。比较常见的例子如掷骰子。

  • 随机试验随机现象得以现实和它观察的全过程。记作 E E E。随机实验满足以下三个条件:

  1. 可以在相同条件下重复进行
  2. 结果有多种可能性,且所有可能结果事先已知
  3. 做一次实验究竟哪个结果出现,事先不能确定。
  • 样本空间:随机试验的所有可能结果组成的集合。记作 Ω \Omega Ω
  • 随机事件:样本空间 Ω \Omega Ω 中满足一定条件的子集。用大写字母 A , B , C . . . A,B,C... A,B,C...表示。
    随机事件在随机实验中可能出现也可能不出现。
  • 必然事件:一次试验中,一个事件发生是指构成该事件的一个样本点出现。样本空间 Ω \Omega Ω 包含了所有样本点。因此每次试验中它总会发生
  • 不可能事件:空集 ϕ \phi ϕ 不包含任何样本点,且在每次试验中总不发生

2.概率

1.定义

随机试验 E E E的样本空间为 Ω \Omega Ω,对于每个事件 A A A,定义一个实数 P ( A ) P(A) P(A)与之对应,若函数 P ( . ) P(.) P(.)满足条件:

  1. 对每个事件 A A A,均有 0 < P ( A ) < = 1 00<P(A)<=1;

  2. P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1;

  3. 若事件 A 1 , A 2 , A 3 , . . . A_1,A_2,A_3,... A1,A2,A3,...两两互斥,即对于 i , j = 1 , 2 , . . . , i ≠ j , A i ∩ A j = ϕ i,j=1,2,...,i \neq j ,A_i \cap A_j = \phi ij=1,2,...i=j,AiAj=ϕ,均有

    P ( A 1 ∪ A 2 ∪ . . . ) = P ( A 1 ) + P ( A 2 ) + . . . P(A_1 \cup A_2 \cup ...)=P(A_1) +P(A_2) +... P(A1A2...)=P(A1)+P(A2)+...

则称 P ( A ) P(A) P(A)为事件 A A A的概率。

2.主要性质
  • 对于任一事件 A A A,均有 P ( A ‾ ) = 1 − P ( A ) P(\overline{A})=1-P(A) P(A)=1P(A).

  • 对于两个事件 A A A B B B,若 A ⊂ B A \subset B AB,则有

P ( B − A ) = P ( B ) − P ( A ) , P ( B ) > P ( A ) P(B-A) = P(B) - P(A), P(B) >P(A) P(BA)=P(B)P(A),P(B)>P(A).

  • 对于任意两个事件 A A A B B B,有

    P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A \cup B) = P(A) + P(B) - P(A\cap B) P(AB)=P(A)+P(B)P(AB).


    3.古典概型

    设随机事件 E E E 的样本空间中只有有限个样本点,即 Ω = { ω 1 , ω 2 , . . . , ω n } \Omega= \{ \omega_1, \omega_2,..., \omega_n \} Ω={ω1,ω2,...,ωn},其中, n n n 为样本点的总数。每个样本点 ω i ( i = 1 , 2 , . . . , n ) \omega_i (i =1,2,...,n) ωi(i=1,2,...,n)出现是等可能的,并且每次试验有且仅有一个样本点发生,则称这类现象为古典概型。若事件 A A A 包含个 m m m 个样本点,则事件 A A A 的概率定义为:

P ( A ) = m n = 事 件 A 包 含 的 基 本 事 件 数 基 本 事 件 总 数 P(A) = \frac{m} {n} = \frac{事件A包含的基本事件数} {基本事件总数} P(A)=nm=A


4.条件概率

定义

A A A B B B 是两个事件,且 P ( B ) > 0 P(B)>0 P(B)>0,称 P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B) = \frac {P(AB)} {P(B)} P(AB)=P(B)P(AB)在事件 B B B 发生的条件下,事件 A A A 发生的概率。


5.全概率公式和贝叶斯公式

预备知识:

  • 概率的乘法公式 P ( A B ) = P ( B ∣ A ) P ( A ) = P ( A ∣ B ) P ( B ) P(AB)=P(B|A)P(A) =P(A|B)P(B) P(AB)=P(BA)P(A)=P(AB)P(B)

如果事件组,满足

  1. B 1 , B 2 , . . . B_1,B_2,... B1,B2,... 两两互斥,即 B i ∩ B j = ϕ , i ≠ j , i , j = 1 , 2 , . . . B_i\cap B_j = \phi,i \neq j ,i,j = 1,2,... BiBj=ϕi=j,i,j=1,2,...,且 P ( B i ) > 0 , i = 1 , 2 , . . . P(B_i)>0,i=1,2,... P(Bi)>0,i=1,2,...
  2. B 1 ∪ B 2 ∪ . . . = Ω B_1 \cup B_2 \cup ... = \Omega B1B2...=Ω

​ 则称事件组 B 1 , B 2 , . . . B_1,B_2,... B1,B2,...是样本空间 Ω \Omega Ω 的一个划分。


  • 全概率公式: 设 B 1 , B 2 , . . . B_1,B_2,... B1,B2,...是样本空间 Ω \Omega Ω 的一个划分, A A A 为任一事件,则

    P ( A ) = ∑ i = 1 ∞ P ( B i ) P ( A ∣ B i ) P(A) = \sum_{i=1}^{\infty } {P(B_i)}P(A|B_i) P(A)=i=1P(Bi)P(ABi)

    称为全概率公式。

根据全概率公式和概率乘法公式可得:

  • 贝叶斯公式:
    B 1 , B 2 , . . . B_1,B_2,... B1,B2,...是样本空间 Ω \Omega Ω 的一个划分,则对任一事件 A ( P ( A ) > 0 ) A(P(A)>0) A(P(A)>0) ,有

    P ( B i ∣ A ) = P ( B i A ) P ( A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 ∞ P ( B j ) P ( A ∣ B j ) , i = 1 , 2 , . . . P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} ,i=1,2,... P(BiA)=P(A)P(BiA)=j=1P(Bj)P(ABj)P(ABi)P(Bi),i=1,2,...

    称上式为贝叶斯公式,称
    P ( B i ) ( i = 1 , 2 , . . . ) P(B_i)(i=1,2,...) P(Bi)(i=1,2,...)先验概率
    P ( B i ∣ A ) ( i = 1 , 2 , . . . ) P(B_i|A)(i=1,2,...) P(BiA)i=1,2,...后验概率

    在实际中,常取对样本空间 Ω \Omega Ω 的有限划分 B 1 , B 2 , . . . , B n B_1,B_2,...,B_n B1,B2,...,Bn B i B_i Bi 视为导致试验结果 A A A 发生的“原因”,
    P ( B i ) P(B_i) P(Bi) 表示各种“原因”发生的可能性大小,故称为先验概率;
    P ( B i ∣ A ) P(B_i|A) P(BiA) 则反应当试验产生了结果 A A A 之后,再对各种“原因”概率的新认识,故称为后验概率 。


二、随机变量

1.随机变量及其分布
  • 随机变量的定义:
    E E E 是随机试验, Ω \Omega Ω 是样本空间,如果对于每一个 ω ∈ Ω \omega \in \Omega ωΩ 。都有一个确定的实数 X ( ω ) X(\omega) X(ω) 与之对应,若对于任意实 x ∈ R x \in R xR , 有 { ω : X ( ω ) < x } ∈ F \{\omega :X(\omega) < x \} \in F {ωX(ω)<x}F ,则称 Ω \Omega Ω 上的单值实函数 X ( ω ) X(\omega) X(ω) 为一个随机变量。

    从定义可知随机变量是定义在样本空间 Ω \Omega Ω 上,取值在实数域上的函数。由于它的自变量是随机试验的结果,而随机试验结果的出现具有随机性,因此,随机变量的取值也具有一定的随机性。这是随机变量与普通函数的不同之处。


描述一个随机变量,不仅要说明它能够取那些值,而且还要关心它取这些值的概率。因此,接下来引入随机变量的分布函数的概念。


  • 随机变量的分布函数定义:

X X X 是一个随机变量,对任意的实数 x x x ,令
F ( x ) = P { X < = x } , x ∈ ( − ∞ , + ∞ ) F(x) = P \{ X<=x\} ,x \in (- \infty ,+ \infty) F(x)=P{X<=x},x(,+)
​ 则称 F ( x ) F(x) F(x) 为随机变量 x x x 的分布函数,也称为概率累积函数。

直观上看,分布函数 F ( x ) F(x) F(x) 是一个定义在 ( − ∞ , + ∞ ) (- \infty, + \infty) (,+) 上的实值函数, F ( x ) F(x) F(x)在点 x x x 处取值为随机变量 X X X 落在区间 ( − ∞ , + x ] (- \infty, + x] (,+x]上的概率 。分布函数(概率累积函数)很好理解,就是在一个区间范围内概率函数的累加。这个区间就是负无穷到当前节点


2.离散型随机变量

​ 如果随机变量 X X X全部可能取值只有有限多个或可列无穷多个,则称 X X X 为离散型随机变量。掷骰子的结果就是离散型随机变量。

​ 对于离散型随机变量 X X X 可能取值为 x k x_k xk的概率为:
P { X = x k } = p k , k = 1 , 2 , . . . P \{ X =x_k \} =p_k,k=1,2,... P{X=xk}=pk,k=1,2,...
则称上式为离散型随机变量 X X X 的分布律。

我们可以用下表来表示分布律:

X X X x 1 x_1 x1 x 2 x_2 x2 x n x_n xn
p k p_k pk p 1 p_1 p1 p 2 p_2 p2 p n p_n pn

离散型随机变量的分布函数为:
F ( x ) = P { X < = x } = ∑ x k < = x P { X = x k } = ∑ x k < = x P k F (x) = P \{ X<=x \} =\sum_{x_k <=x}{ P \{ X=x_k \} } = \sum_{x_k <=x}{ P_k} F(x)=P{X<=x}=xk<=xP{X=xk}=xk<=xPk


3.常见的离散型分布

伯努利实验,二项分布
  • 定义:

  • 如果一个随机试验只有两种可能的结果 A A A A ‾ \overline A A,并且

    P ( A ) = p , P ( A ‾ ) = 1 − p = q P(A) = p,P(\overline A) =1-p=q P(A)=pP(A)=1p=q

    其中, 0 < p < 1 00<p<1 ,则称此试验为Bernoulli(伯努利)试验.
    Bernoulli试验独立重复进行 n n n 次,称为 n n n 重伯努利试验

  • 分布函数

若随机变量 X X X 的分布律为:
P { X = k } = C n k p k ( 1 − p ) n − k , k = 0 , 1 , 2 , . . . n . P \{ X =k \} =C^k_np^k(1-p)^{n-k},k=0,1,2,...n. P{X=k}=Cnkpk(1p)nk,k=0,1,2,...n.
其分布函数为:
F ( x ) = ∑ k = [ x ] C n k p k ( 1 − p ) n − k , k = 0 , 1 , 2 , . . . n . F(x) = \sum_{k=}^{[x]} {C^k_np^k(1-p)^{n-k}},k=0,1,2,...n. Fx=k=[x]Cnkpk(1p)nk,k=0,1,2,...n.
其中, [ x ] [x] [x] 表示下取整,即不超过 x x x 的最大整数。


4.随机变量的数字特征

1.数学期望
  • 离散型
    离散型随机变量 X X X 的分布律为 $P { X=x_i} = p_i ,i =1,2,…,
    若级数 ∑ i ∣ x i ∣ p i \sum_{i} {|x_i|p_i} ixipi 收敛(收敛指会聚于一点,向某一值靠近,相对于发散)。
    则称级数 ∑ i x i p i \sum_{i} {x_ip_i} ixipi 的和为随机变量 X X X 的数学期望。记为 E ( X ) E(X) E(X) ,即:

E ( X ) = ∑ i x i p i E(X) = \sum_{i} {x_ip_i} E(X)=ixipi

  • 连续型随机变量 X X X 的概率密度函数为 f ( x ) f(x) f(x) ,
  • 若积分 ∫ − ∞ + ∞ ∣ x ∣ f ( x ) d x \int_{- \infty}^{+ \infty}{|x|f(x)}dx +xfxdx 收敛
  • 称积分 ∫ − ∞ + ∞ x f ( x ) d x \int_{- \infty}^{+ \infty}{xf(x)}dx +xfxdx 的值为随机变量 X X X 的数学期望,记为 E ( X ) E(X) E(X) ,即:
    E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)= \int_{- \infty}^{+ \infty}{xf(x)}dx E(X)=+xfxdx
    E ( X ) E(X) E(X) 又称为均值

数学期望代表了随机变量取值的平均值,是一个重要的数字特征。数学期望具有如下性质:

  1. c c c 是常数,则 E ( c ) = c E(c) =c E(c)=c ;
  2. E ( a X + b Y ) = a E ( X ) + b E ( Y ) E(aX+bY) = aE(X) +bE(Y) E(aX+bY)=aE(X)+bE(Y) , 其中a, b为任意常数;
  3. X , Y X, Y X,Y 相互独立,则 E ( X Y ) = E ( X ) E ( Y ) E(XY) = E(X)E(Y) E(XY)=E(X)E(Y) ; (相互独立就是没有关系,不相互影响)。

2.方差
  • X X X 为随机变量,如果 E { [ X − E ( X ) ] 2 } E\{ [X-E(X)]^2\} E{[XE(X)]2} 存在,则称 E { [ X − E ( X ) ] 2 } E\{ [X-E(X)]^2\} E{[XE(X)]2} X X X 的方差。记为 V a r ( X ) Var(X) Var(X) , 即:

V a r ( X ) = E { [ X − E ( X ) ] 2 } Var (X) =E\{ [X-E(X)]^2\} VarX=E{[XE(X)]2}

​ 并且称 V a r ( X ) \sqrt{Var(X)} Var(X) X X X标准差或均方差

方差是用来描述随机变量取值相对于均值的离散程度的一个量,也是非常重要的数字特征。方差有如下性质:

  1. c c c 是常数,则 V a r ( c ) = 0 Var(c) =0 Var(c)=0 ;
  2. V a r ( a X + b ) = a 2 V a r ( X ) Var(aX+b) = a^2Var(X) Var(aX+b)=a2Var(X) , 其中a, b为任意常数;
  3. X , Y X, Y X,Y 相互独立,则 V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) Var(X+Y) = Var(X) +Var(Y) Var(X+Y)=Var(X)+Var(Y)

3.协方差和相关系数

协方差和相关系数都是描述随机变量 X X X 与随机变量 Y Y Y 之间的线性联系程度的数字量

  • X , Y X, Y X,Y 为两个随机变量,称 E { [ X − E ( X ) ] [ Y − E ( Y ) ] } E\{ [X-E(X)] [Y-E(Y)]\} E{[XE(X)][YE(Y)]} X X X Y Y Y 的协方差,记为 C o v ( X , Y ) Cov(X, Y) Cov(X,Y),即:
    C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X, Y) = E\{ [X-E(X)] [Y-E(Y)]\} Cov(X,Y)=E{[XE(X)][YE(Y)]}
    协方差有如下性质:

    1. C o v ( X , Y ) = C o v ( Y , X ) Cov(X, Y) = Cov(Y, X) Cov(X,Y)=Cov(Y,X) ;

    2. C o v ( a X + b , c Y + d ) = a c C o v ( X , Y ) Cov(aX+b,cY+d) =ac Cov( X,Y) Cov(aX+bcY+d)=acCov(XY) ,其中, a , b , c , d a,b,c,d a,b,c,d 为任意常数;

    3. C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y) =Cov( X_1,Y) +Cov( X_2,Y) Cov(X1+X2Y)=Cov(X1Y)+Cov(X2Y) ;

    4. C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y) =E( XY) -E( X)E(Y) Cov(XY)=E(XY)E(X)E(Y) ; 当 X , Y X,Y X,Y 相互独立时,有 C o v ( X , Y ) = 0 Cov(X,Y) = 0 Cov(XY)=0;

    5. ∣ C o v ( X , Y ) ∣ < = V a r ( X ) V a r ( Y ) |Cov(X,Y)| <= \sqrt {Var(X)} \sqrt {Var(Y)} Cov(XY)<=Var(X) Var(Y) ;

    6. C o v ( X , X ) = V a r ( X ) Cov(X,X) =Var( X) Cov(XX)=Var(X) ;

  • V a r ( X ) > 0 , V a r ( Y ) > 0 \sqrt {Var(X)} >0 ,\sqrt {Var(Y)} >0 Var(X) >0Var(Y) >0 时,称
    ρ ( X , Y ) = C o v ( X , Y ) V a r ( X ) V a r ( Y ) \rho(X,Y) = \frac{Cov(X,Y)}{\sqrt {Var(X)} \sqrt {Var(Y)}} ρX,Y=Var(X) Var(Y) Cov(XY)
    X , Y X,Y X,Y 的相关系数,它是无纲量的量(也就是说没有单位,只是个代数值)。

  • 基本上我们都会用相关系数来衡量两个变量之间的相关程度。相关系数在-1到1之间,小于零表示负相关,大于零表示正相关。绝对值 ∣ ρ ( X , Y ) ∣ |\rho(X,Y)| ρX,Y 表示相关度的大小。越接近1,相关度越大。

三、后记

感谢Datawhale组织这次组队学习。这篇博客主要的参考链接:https://github.com/datawhalechina/team-learning/blob/master/02%20%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E5%9F%BA%E7%A1%80%E6%96%B9%E6%B3%95/%E6%A6%82%E7%8E%87%E7%BB%9F%E8%AE%A1/1.%20%E9%9A%8F%E6%9C%BA%E4%BA%8B%E4%BB%B6%E4%B8%8E%E9%9A%8F%E6%9C%BA%E5%8F%98%E9%87%8F.md

你可能感兴趣的:(Datawhale组队学习-概率统计 -task1 随机事件与随机变量)