概率论与数理统计复习总结1

概率论与数理统计复习总结,仅供笔者复习使用,参考教材:

  • 《概率论与数理统计》/ 荣腾中主编. — 第 2 版. 高等教育出版社
  • 《2024高途考研数学——概率基础精讲》王喆

概率论与数理统计实际上是两个互补的分支:概率论已知随机变量及其概率分布 的基础上去描述随机现象的统计规律、挖掘随机变量的数字特征与数学性质、计算随机事件的发生概率;数理统计 则是通过随机现象来研究其统计规律性,即通过收集、整理和分析随机变量的观测数据,对随机变量的性质和特征做出合理的推断或预测。

本文主要内容为:概率论;
概率论 部分见 概率论与数理统计复习总结1;
数理统计1 部分见 概率论与数理统计复习总结2;
数理统计2 部分见 概率论与数理统计复习总结3;

目录

  • 一. 随机事件及其概率
    • 1. 随机事件
    • 2. 事件的概率
    • 3. 条件概率
    • 4. 事件的独立性
  • 二. 一维随机变量及其分布
    • 1. 随机变量及其分布函数
    • 2. 离散型随机变量
    • 3. 连续型随机变量
    • 4. 随机变量函数的分布
  • 三. 多维随机变量及其分布
    • 1. 二维随机变量及其分布
    • 2. 二维离散型随机变量
    • 3. 二维连续型随机变量
    • 4. 边缘分布
    • 5. 随机变量间的独立性
    • 6. 条件分布
    • 7. 二维随机变量函数的分布
  • 四. 随机变量的数字特征
    • 1. 数学期望
    • 2. 方差
    • 3. 协方差与相关系数
    • 4. 矩
    • 5. 条件数学期望
  • 五. 极限定理
    • 1. 基本概念
    • 2. 大数定律
    • 3. 中心极限定理

一. 随机事件及其概率

1. 随机事件

  • 确定性现象和随机现象:自然界中人们能观察到的两类现象,即确定性现象和随机现象。由于随机现象的不是一定出现的,因此需要使用 “概率” 来预测随机现象出现的可能性;
  • 随机试验:对随机现象的一次观测称为随机试验,记为 E E E。满足以下特点:
    • 可重复性:观测可以在相同条件下重复进行;
    • 多样性与明确性:观测的可能结果不止一个,但观测前可以确定所有可能出现的结果;
    • 不确定性:观测前不能确定那一个结果出现;
  • 样本点:随机试验 E E E 中可能出现的基本结果称为样本点,记为 ω \omega ω
  • 样本空间:由所有样本点组成的集合称为样本空间,记为 Ω \Omega Ω
  • 随机事件:一次随机试验 E E E 的某些具有特定意义的结果,即样本空间的子集,通常记为 A , B , C , . . . A, B, C, ... A,B,C,...。样本空间的最大子集 Ω \Omega Ω 称为必然事件,最小子集 ∅ \varnothing 称为不可能事件;
  • 事件的关系:
    • 子事件:如果事件 A 的样本点属于事件 B 的样本点,则称 A 是 B 的子事件,记为 A ⊂ \subset B;
      • 相等事件:如果事件 A 与 B 互为子事件,则称 A 与 B 相等,记为 A = B;
    • 和事件:事件 A 与事件 B 的全部样本点组成的集合,记为 A ∪ \cup B。当 A 与 B 互斥时 A ∪ \cup B 也可以简写为 A + B;
    • 积事件:同时属于事件 A 和事件 B 的样本点组成的集合,记为 A ∩ \cap B 或 AB;
    • 互斥事件:如果事件 A 与事件 B 没有公共的样本点,则称 A 与 B 互斥,记为 AB = ∅ \varnothing
      • 对立事件:如果 AB = ∅ \varnothing 并且 A ∪ \cup B = Ω \Omega Ω,则称 A 与 B 是对立事件,记为 B = A ‾ \overline{A} A
    • 差事件:由属于事件 A 而不属于事件 B 的样本点组成的集合,记为 A - B 或 A - AB 或 A B ‾ A\overline{B} AB
      • 正常差事件:当 B ⊂ \subset A 时,称 A - B 为正常差;
    • 完备事件组:如果事件 A1, A2, …, An 两两互斥 ∑ i = 1 n A i = Ω \sum_{i=1}^n A_{i}=\Omega i=1nAi=Ω,则称 A1, A2, …, An 构成完备事件组;

概率论与数理统计复习总结1_第1张图片

  • 事件的运算律:
    • 交换律:A ∪ \cup B = B ∪ \cup A,AB = BA;
    • 结合律:(A ∪ \cup B) ∪ \cup C = A ∪ \cup (B ∪ \cup C),(AB) C = A (BC);
    • 分配率:(A ∪ \cup B) C = AC ∪ \cup BC,(AB) ∪ \cup C = (A ∪ \cup C) (B ∪ \cup C);
    • 德摩根律: ⋂ i = 1 n A i ‾ \overline{\bigcap\limits_{i=1}^nA_i} i=1nAi = ⋃ i = 1 n A i ‾ \bigcup\limits_{i=1}^n\overline{A_i} i=1nAi ⋃ i = 1 n A i ‾ \overline{\bigcup\limits_{i=1}^nA_i} i=1nAi = ⋂ i = 1 n A i ‾ \bigcap\limits_{i=1}^n\overline{A_i} i=1nAi
    • 吸收率:如果 A ⊂ \subset B,则 A ∪ \cup B = B,AB = A;

  集合的运算无消去律,因为 A ∪ \cup B = A ∪ \cup C 并不能推出 B = C。

2. 事件的概率

  概率是表示某个随机事件出现的可能性的一种度量,确定随机事件的概率的经典方法有:主观概率、统计概率、古典概率、几何概率,前两种是近似的估计,后两种是精确计算。

  • 主观概率:依据经验或历史对随机事件的可能性的一种主观估计,与客观概率相对;
  • 统计规律:随机事件 A 在大量重复试验中呈现出的规律性。随着试验次数的增加,A 的频率 f n ( A ) f_n(A) fn(A) 稳定趋向于概率 P(A);
  • 古典概率:样本空间中的基本事件个数有限且具有等可能性;
  • 几何概率:样本空间中的基本事件个数无限且具有等可能性;
  • 概率空间: Ω \Omega Ω 是随机试验 E 的样本空间, F \mathscr{F} F 是事件域, P P P 是测度,记 F : P ↦ [ 0 , 1 ] \mathscr{F}: P \mapsto [0, 1] F:P[0,1]。在概率论体系中,称 ( Ω , F , P ) (\Omega, \mathscr{F}, P) (Ω,F,P) 为概率空间;
  • 概率的公理化:
    概率论与数理统计复习总结1_第2张图片
  • 概率的性质:
    概率论与数理统计复习总结1_第3张图片

3. 条件概率

  • 条件概率: P ( A ∣ B ) = P ( A B ) P ( B ) P(A\mid B)=\frac {P(AB)} {P(B)} P(AB)=P(B)P(AB)
  • 条件概率的公理化:
    概率论与数理统计复习总结1_第4张图片
  • 条件概率的性质:
    概率论与数理统计复习总结1_第5张图片
  • 乘法公式: P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(AB)=P(A)P(B \mid A)=P(B)P(A \mid B) P(AB)=P(A)P(BA)=P(B)P(AB)
  • 全概率公式:设事件 A1, A2, …, An 两两互斥,P(Ai) > 0,且 B ⊂ ⋃ i = 1 n A i = Ω \subset \bigcup\limits_{i=1}^nA_i=\Omega i=1nAi=Ω,则 P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum\limits_{i=1}^nP(A_i)P(B \mid A_i) P(B)=i=1nP(Ai)P(BAi)
  • 贝叶斯公式:设事件 A1, A2, …, An 两两互斥,P(Ai) > 0,且 B ⊂ ⋃ i = 1 n A i = Ω \subset \bigcup\limits_{i=1}^nA_i=\Omega i=1nAi=Ω,则 P ( A k ∣ B ) = P ( A k ) P ( B ∣ A k ) ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(A_k \mid B)=\frac {P(A_k)P(B \mid A_k)} {\sum\limits_{i=1}^nP(A_i)P(B \mid A_i)} P(AkB)=i=1nP(Ai)P(BAi)P(Ak)P(BAk)

   P ( A i ) P(A_i) P(Ai) 是先验概率,即在不知道 B 的情况下对 A_i 的估计; P ( A i ∣ B ) P(A_i \mid B) P(AiB) 是后验概率,因为在得知 B 发生的情况下 A_i 的概率分布可能会发生变化,因此 P ( A i ∣ B ) P(A_i \mid B) P(AiB) 描述的是条件概率。

4. 事件的独立性

  • 事件独立: P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B)
  • 独立性的性质:
    在这里插入图片描述
  • 多个事件独立:设 A 1 , A 2 , . . . , A n A_1, A_2, ..., A_n A1,A2,...,An 为 n 个随机事件,对其中任意 s 个(2<=s<=n)事件 A k 1 , A k 2 , . . . , A k s A_{k1}, A_{k2}, ..., A_{ks} Ak1,Ak2,...,Aks 均有 P ( A k 1 A k 2 . . . A k s ) = P ( A k 1 ) P ( A k 2 ) . . . P ( A k s ) P(A_{k1}A_{k2}...A_{ks})=P(A_{k1})P(A_{k2})...P(A_{ks}) P(Ak1Ak2...Aks)=P(Ak1)P(Ak2)...P(Aks),则有事件 A 1 , A 2 , . . . , A n A_1, A_2, ..., A_n A1,A2,...,An 互相独立

  多个事件互相独立不是只要 P ( A 1 A 2 . . . A n ) = P ( A 1 ) P ( A 2 ) . . . P ( A n ) P(A_{1}A_{2}...A_{n})=P(A_{1})P(A_{2})...P(A_{n}) P(A1A2...An)=P(A1)P(A2)...P(An) 就可以,而是要对任意几个事件组都满足该等式。因为几个相互之间两两独立的事件放在一起并不一定互相独立:
概率论与数理统计复习总结1_第6张图片

  • 独立重复试验:n 个试验 E 1 , E 2 , . . . , E n E_1, E_2, ..., E_n E1,E2,...,En 相同且相互独立,则称为 n 重独立试验;
  • 伯努利试验:若试验 E 的可能结果只有两个,则称为伯努利试验。若 n 重独立试验中每次试验都是伯努利试验,则称为 n 重伯努利试验;

二项概率: P n ( k ) = C n k p k ( 1 − p ) n − k P_n(k)=C_n^kp^k(1-p)^{n-k} Pn(k)=Cnkpk(1p)nk
几何概率: G ( k ) = p ( 1 − p ) k − 1 G(k)=p(1-p)^{k-1} G(k)=p(1p)k1
负二项概率: G r ( k ) = C k − 1 r − 1 p r ( 1 − p ) k − r G_r(k)=C_{k-1}^{r-1}p^r(1-p)^{k-r} Gr(k)=Ck1r1pr(1p)kr

二. 一维随机变量及其分布

1. 随机变量及其分布函数

  • 随机变量:取值具有随机性的变量,用于描述随机试验的结果;

  随机变量不是简单的变量,而是定义在样本空间 Ω \Omega Ω 上的关于随机试验 E E E 的结果 ω \omega ω 的函数, X ( ω ) X(\omega) X(ω) 就用于描述随机试验的结果, ω 1 , ω 2 , . . . , ω m \omega_1, \omega_2, ..., \omega_m ω1,ω2,...,ωm 都是 X X X 可能的取值。

  • 随机变量类型:离散型、连续型、混合型;
    • 离散型:随机变量 X X X 的取值是有限个或者无限个但可列,如 X = 1 , 2 , 3 , . . . X = 1, 2, 3, ... X=1,2,3,...
    • 连续型:随机变量 X X X 在连续区间上取值,如 X ∈ ( 3 , 5 ] X \in (3, 5] X(3,5]
    • 混合型:多个随机变量的线性组合,如 X X X 以概率 p 取随机变量 X 1 X_1 X1,以 1 - p 取随机变量 X 2 X_2 X2,则 X X X 可表示为 p ∗ X 1 + ( 1 − p ) ∗ X 2 p*X_1+(1-p)*X_2 pX1+(1p)X2
  • 分布函数: F ( x ) = P { X ≤ x } , x ∈ R F(x)=P \{X \leq x\}, x \in R F(x)=P{Xx},xR
  • 分布函数的性质:
    概率论与数理统计复习总结1_第7张图片

2. 离散型随机变量

  • 分布律:
    概率论与数理统计复习总结1_第8张图片

  • 分布函数:
    概率论与数理统计复习总结1_第9张图片

  • 常见离散型随机变量分布律:

    • 单点分布: P { X = c } = 1 P\{X=c\}=1 P{X=c}=1,用于描述确定事件;
    • 两点分布: P { X = a } = p , P { X = b } = 1 − p P\{X=a\}=p, P\{X=b\}=1-p P{X=a}=p,P{X=b}=1p,用于描述二值事件;
      • 0 - 1 分布: P { X = 1 } = p , P { X = 0 } = 1 − p P\{X=1\}=p, P\{X=0\}=1-p P{X=1}=p,P{X=0}=1p,记为 X ∼ B ( 1 , p ) X \sim B(1, p) XB(1,p)
    • 二项分布: P { X = k } = C n k p k ( 1 − p ) n − k , k = 0 , 1 , 2 , . . . , n P\{X=k\}=C_n^k p^k (1-p)^{n-k}, k=0, 1, 2, ..., n P{X=k}=Cnkpk(1p)nk,k=0,1,2,...,n,用于描述 n 个样本中恰好 k 个满足要求的概率,记为 X ∼ B ( n , p ) X \sim B(n, p) XB(n,p)
    • 几何分布: P { X = k } = p ( 1 − p ) k − 1 , k = 1 , 2 , 3 , . . . P\{X=k\}=p (1-p)^{k-1}, k=1, 2, 3, ... P{X=k}=p(1p)k1,k=1,2,3,...,用于描述第 k 次试验首次满足要求的概率,记为 X ∼ G ( p ) X \sim G(p) XG(p)。几何分布具有无记忆性,即 P { X = k + 1 ∣ X > k } = P { X = 1 } P\{X=k+1 | X>k\}=P\{X=1\} P{X=k+1∣X>k}=P{X=1}
    • 泊松分布: P { X = k } = e − λ λ k k ! , k = 0 , 1 , 2 , . . . , λ > 0 P\{X=k\}=e^{-\lambda} \frac{\lambda^k}{k!}, k=0, 1, 2, ..., \lambda>0 P{X=k}=eλk!λk,k=0,1,2,...,λ>0,用于描述事件在一段特定的时空间隔中发生 k 次的概率,记为 X ∼ P ( λ ) X \sim P(\lambda) XP(λ)

      泊松分布用于描述事件在一段特定的时空间隔中发生 k 次的概率,比如一本书上的勘误字数、钢板上的气泡数、排队等候人数等。
      泊松分布还可以作为二项分布的近似,有泊松定理:如果 lim ⁡ n → + ∞ n p n = λ > 0 \lim_{n \to +\infty} np_n=\lambda >0 limn+npn=λ>0,则 lim ⁡ n → + ∞ C n k p n k ( 1 − p n ) n − k = e − λ λ k k ! \lim_{n \to +\infty} C_n^kp_n^k(1-p_n)^{n-k}=e^{-\lambda} \frac{\lambda^k}{k!} limn+Cnkpnk(1pn)nk=eλk!λk。一般在 n ≥ \geq 20,p ≤ \leq 0.05 时可以使用该近似,在 n ≥ \geq 100,np ≤ \leq 10 时逼近效果较好。

概率论与数理统计复习总结1_第10张图片

3. 连续型随机变量

  • 密度函数:
    在这里插入图片描述

  密度函数 f ( x ) f(x) f(x) 并不表示随机变量 X X X 取值为 x x x 的概率,而是表示随机变量 X X X 的样本点在 x x x 处的密集程度。因为随机变量是连续的,所以样本点有无限个,又所有概率之和为 1,因此每个单值样本点的概率必然为 0。由此可见,概率为 0 的事件不一定是不可能事件,概率为 1 的事件也不一定是必然事件。
  连续型随机变量的单个样本点的概率也可以表示为: P ( X = x 0 ) = lim ⁡ Δ x → 0 ∫ x 0 x 0 + Δ x f ( x ) d x P(X=x_0)=\lim_{\Delta x \to 0} \int_{x_0}^{x_0+\Delta x} {f(x)} {\rm d}x P(X=x0)=Δx0limx0x0+Δxf(x)dx

  • 分布函数:
    概率论与数理统计复习总结1_第11张图片

  • 常见连续型随机变量分布律:

    • 均匀分布: f ( x ) = { 1 b − a x ∈ [ a , b ] 0 x ∉ [ a , b ] f(x) = \begin{cases} \frac{1}{b-a} & x\in[a, b] \\ 0 & x\notin[a, b] \\ \end{cases} f(x)={ba10x[a,b]x/[a,b] ( a < b a < b a<b),用于描述连续型随机变量在一段连续区间上分布均匀的情况,记为 X ∼ U ( a , b ) X \sim U(a, b) XU(a,b)
    • 指数分布: f ( x ) = { λ e − λ x x > 0 0 x ≤ 0 f(x) = \begin{cases} \lambda e^{-\lambda x} & x>0 \\ 0 & x\leq 0 \\ \end{cases} f(x)={λeλx0x>0x0 ( λ > 0 \lambda >0 λ>0) ,用于描述某一事件发生的等待时间,记为 X ∼ Γ ( 1 , λ ) X \sim \Gamma(1, \lambda) XΓ(1,λ)

      指数分布用于描述某一事件相继发生两次之间时间间隔为 x 的概率,如乘客在公交车站的等车时间、灯泡的使用寿命等。另外,指数分布是唯一具有 “无记忆性” 的连续型分布,即 P { X > s + t ∣ X > s } = P { X > t } P\{X>s+t | X>s\}=P\{X>t\} P{X>s+tX>s}=P{X>t}
      指数分布还和泊松分布关系密切,可以相互转化,例题如下:
    概率论与数理统计复习总结1_第12张图片

    • 正态分布: f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x) =\frac{1}{\sqrt{2 \pi}\sigma} e^{- \frac{(x-\mu)^2}{2 \sigma ^2}} f(x)=2π σ1e2σ2(xμ)2,是自然界中最常见的分布,也是许多分布在 n 很大时的极限分布,记为 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma ^2) XN(μ,σ2)
      • 标准正态分布: μ = 0 \mu=0 μ=0 σ = 1 \sigma=1 σ=1,密度函数记为 ϕ ( x ) \phi(x) ϕ(x),分布函数记为 Φ ( x ) \Phi(x) Φ(x)

      由于正态分布密度函数的积分不能用初等函数表示,因此正态分布的分布函数没有初等表达式,在计算时一般会将 F ( x ) F(x) F(x) 转换为 Φ ( x ) \Phi(x) Φ(x),然后查表得到函数近似值。
      正态分布还有一个比较常用的原则叫做 “3 σ \sigma σ 原则”,如图所示:
    概率论与数理统计复习总结1_第13张图片

概率论与数理统计复习总结1_第14张图片

4. 随机变量函数的分布

设关于随机变量 X X X 的函数 Y = g ( X ) Y=g(X) Y=g(X),则随机变量 Y Y Y 的概率分布可以由 X X X 得到。

  • 离散型随机变量函数的分布: P X ( x ) = > Y = g ( X ) P Y ( y ) P_X(x) \stackrel{Y=g(X)}{=>} P_Y(y) PX(x)=>Y=g(X)PY(y)
  • 连续型随机变量函数的分布: F X ( x ) = > Y = g ( X ) F Y ( y ) = P { g ( X ) ≤ y } = > F Y ′ ( y ) = f Y ( y ) f Y ( y ) F_X(x) \stackrel{Y=g(X)}{=>} F_Y(y)=P\{g(X) \leq y \} \stackrel{F_Y^{\prime}(y)=f_Y(y)}{=>} f_Y(y) FX(x)=>Y=g(X)FY(y)=P{g(X)y}=>FY(y)=fY(y)fY(y)

概率论与数理统计复习总结1_第15张图片

三. 多维随机变量及其分布

1. 二维随机变量及其分布

  • 二维随机变量:设 Ω \Omega Ω 是随机试验 E E E 的样本空间, X , Y X, Y X,Y 是定义在 Ω \Omega Ω 上的实值函数,对任意两个实数 x, y,有 { X ≤ x , Y ≤ y } = { ω ∣ X ( ω ) ≤ x 且 Y ( ω ) ≤ y , ω ∈ Ω } ∈ F \{X \leq x, Y \leq y\}=\{\omega | X(\omega) \leq x 且 Y(\omega) \leq y, \omega \isin \Omega\} \isin \mathscr{F} {Xx,Yy}={ωX(ω)xY(ω)y,ωΩ}F,其中 F \mathscr{F} F 是事件域,则称 ( X , Y ) (X, Y) (X,Y) 是概率空间 ( Ω , F , P ) (\Omega, \mathscr{F}, P) (Ω,F,P) 上的二维随机变量。二维随机变量 (X, Y) 的性质与 X 和 Y 及其相互关系有关,需要将 X 和 Y 作为一个整体进行研究。 { X ≤ x , Y ≤ y } = { X ≤ x } ∪ { Y ≤ y } \{X \leq x, Y \leq y\}=\{X \leq x\} \cup \{Y \leq y\} {Xx,Yy}={Xx}{Yy}
  • 联合分布函数:二维随机变量 X , Y X, Y X,Y 的分布函数称为联合分布函数, F ( x , y ) = P { X ≤ x , Y ≤ y } F(x, y) = P\{X \leq x, Y \leq y\} F(x,y)=P{Xx,Yy}
  • 联合分布函数的性质:
    概率论与数理统计复习总结1_第16张图片

2. 二维离散型随机变量

  • 二维离散型随机变量:二维随机变量 ( X , Y ) (X, Y) (X,Y) 的所有可能取值对是有限个或者无限个但可列,记 P { X = a i , Y = b j } = p i j P\{X=a_i, Y=b_j\}=p_{ij} P{X=ai,Y=bj}=pij
    概率论与数理统计复习总结1_第17张图片
  • 二维离散型随机变量的联合分布函数与联合分布律的关系:
    在这里插入图片描述

3. 二维连续型随机变量

  • 二维连续型随机变量:二维随机变量 ( X , Y ) (X, Y) (X,Y) 的联合分布函数为 F ( x , y ) F(x, y) F(x,y),联合密度函数为 f ( x , y ) f(x, y) f(x,y) f ( x , y ) f(x, y) f(x,y) 非负可积,对任意 x , y x, y x,y,有 F ( x , y ) = ∫ − ∞ x ∫ − ∞ y f ( u , v ) d u   d v F(x, y)=\int_{-\infty}^x \int_{-\infty}^y f(u, v) \mathrm{d} u \mathrm{~d} v F(x,y)=xyf(u,v)du dv
  • 二维连续型随机变量联合密度函数的性质:
    概率论与数理统计复习总结1_第18张图片

4. 边缘分布

  • 边缘分布函数:对于二维随机变量,有
    F X ( x ) = P { X ≤ x } = P { X ≤ x , Y < + ∞ } = F ( x , + ∞ ) F Y ( y ) = P { Y ≤ y } = P { X < + ∞ , Y ≤ y } = F ( + ∞ , y ) \begin{aligned} & F_X(x)=P\{X \leq x\}=P\{X \leq x, Y<+\infty\}=F(x,+\infty) \\ & F_Y(y)=P\{Y \leq y\}=P\{X<+\infty, Y \leq y\}=F(+\infty, y) \end{aligned} FX(x)=P{Xx}=P{Xx,Y<+}=F(x,+)FY(y)=P{Yy}=P{X<+,Yy}=F(+,y)

 边缘分布实际上就是对二维随机变量中的一个变量的所有取值进行累加(或积分),得到一个关于一维随机变量的分布。描述二维离散型随机变量的边缘分布的称为边缘分布率,描述二维连续型随机变量的边缘分布的称为边缘密度函数。

  • 边缘分布律:对于二维离散型随机变量,有
    P { X = a i } = P { X = a i , Y < + ∞ } = ∑ j = 1 + ∞ P { X = a i , Y = b j } = ∑ j = 1 + ∞ p i j , i = 1 , 2 , ⋯ P { Y = b j } = P { X < + ∞ , Y = b j } = ∑ i = 1 + ∞ P { X = a i , Y = b j } = ∑ i = 1 + ∞ p i j , j = 1 , 2 , ⋯ \begin{aligned} P\left\{X=a_i\right\} & =P\left\{X=a_i, Y<+\infty\right\}=\sum_{j=1}^{+\infty} P\left\{X=a_i, Y=b_j\right\}=\sum_{j=1}^{+\infty} p_{i j}, \quad i=1,2, \cdots \\ P\left\{Y=b_j\right\} & =P\left\{X<+\infty, Y=b_j\right\}=\sum_{i=1}^{+\infty} P\left\{X=a_i, Y=b_j\right\}=\sum_{i=1}^{+\infty} p_{i j}, \quad j=1,2, \cdots \end{aligned} P{X=ai}P{Y=bj}=P{X=ai,Y<+}=j=1+P{X=ai,Y=bj}=j=1+pij,i=1,2,=P{X<+,Y=bj}=i=1+P{X=ai,Y=bj}=i=1+pij,j=1,2,

    p i ⋅ = ∑ j = 1 + ∞ p i j = P { X = a i } , i = 1 , 2 , ⋯ p ⋅ j = ∑ i = 1 + ∞ p i j = P { Y = b j } , j = 1 , 2 , ⋯ \begin{aligned} & p_{i \cdot}=\sum_{j=1}^{+\infty} p_{i j}=P\left\{X=a_i\right\}, \quad i=1,2, \cdots \\ & p_{\cdot j}=\sum_{i=1}^{+\infty} p_{i j}=P\left\{Y=b_j\right\}, \quad j=1,2, \cdots \end{aligned} pi=j=1+pij=P{X=ai},i=1,2,pj=i=1+pij=P{Y=bj},j=1,2,
  • 边缘密度函数:对于二维连续型随机变量,有
    f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y , x ∈ R f Y ( y ) = ∫ − ∞ + ∞ f ( x , y ) d x , y ∈ R \begin{aligned} f_X(x) & =\int_{-\infty}^{+\infty} f(x, y) \mathrm{d} y, x \in \mathbf{R} \\ f_Y(y) & =\int_{-\infty}^{+\infty} f(x, y) \mathrm{d} x, y \in \mathbf{R} \\ \end{aligned} fX(x)fY(y)=+f(x,y)dy,xR=+f(x,y)dx,yR
    且有边缘分布函数与边缘密度函数关系如下
    F X ( x ) = F ( x , + ∞ ) = ∫ − ∞ x   d x ∫ − ∞ + ∞ f ( x , y ) d y = ∫ − ∞ x f X ( x ) d x F Y ( y ) = F ( + ∞ , y ) = ∫ − ∞ y   d y ∫ − ∞ + ∞ f ( x , y ) d x = ∫ − ∞ y f Y ( y ) d y \begin{aligned} F_X(x)=F(x,+\infty) & =\int_{-\infty}^x \mathrm{~d} x \int_{-\infty}^{+\infty} f(x, y) \mathrm{d} y=\int_{-\infty}^x f_X(x) \mathrm{d} x \\ F_Y(y)=F(+\infty, y) & =\int_{-\infty}^y \mathrm{~d} y \int_{-\infty}^{+\infty} f(x, y) \mathrm{d} x=\int_{-\infty}^y f_Y(y) \mathrm{d} y \\ \end{aligned} FX(x)=F(x,+)FY(y)=F(+,y)=x dx+f(x,y)dy=xfX(x)dx=y dy+f(x,y)dx=yfY(y)dy

5. 随机变量间的独立性

  • 随机变量间的独立性:随机变量 X 和 Y 相互独立的充要条件是 F ( x , y ) = F X ( x ) ⋅ F Y ( y ) F(x, y)=F_X(x) \cdot F_Y(y) F(x,y)=FX(x)FY(y)
      对于离散型随机变量,还可以通过 P { X = a i , Y = b j } = P { X = a i } ⋅ P { Y = b j } P\{X=a_i, Y=b_j\}=P\{X=a_i\} \cdot P\{Y=b_j\} P{X=ai,Y=bj}=P{X=ai}P{Y=bj} 证明;
      对于连续型随机变量,还可以通过 f ( x , y ) = f X ( x ) ⋅ f Y ( y ) f(x, y)=f_X(x) \cdot f_Y(y) f(x,y)=fX(x)fY(y) 证明;

6. 条件分布

二维随机变量 ( X , Y ) (X, Y) (X,Y) 之间的关系可以是独立或相依,上一节介绍了独立性判定,这一节介绍相依,即条件分布。

  • 离散型随机变量的条件分布:
    P { X = a i ∣ Y = b j } = P { X = a i , Y = b j } P { Y = b j } = p i j p ⋅ j , i = 1 , 2 , ⋯ P\left\{X=a_i \mid Y=b_j\right\}=\frac{P\left\{X=a_i, Y=b_j\right\}}{P\left\{Y=b_j\right\}}=\frac{p_{i j}}{p_{\cdot j}}, \quad i=1,2, \cdots P{X=aiY=bj}=P{Y=bj}P{X=ai,Y=bj}=pjpij,i=1,2,
    F X ∣ Y ( x ∣ b j ) = P { X ⩽ x ∣ Y = b j } = ∑ a i ⩽ x P { X = a i ∣ Y = b j } , x ∈ R F_{X \mid Y}\left(x \mid b_j\right)=P\left\{X \leqslant x \mid Y=b_j\right\}=\sum_{a_i \leqslant x} P\left\{X=a_i \mid Y=b_j\right\}, \quad x \in \mathbf{R} FXY(xbj)=P{XxY=bj}=aixP{X=aiY=bj},xR
    F Y ∣ X ( y ∣ a i ) = P { Y ⩽ y ∣ X = a i } = ∑ b j ⩽ y P { Y = b j ∣ X = a i } , y ∈ R F_{Y \mid X}\left(y \mid a_i\right)=P\left\{Y \leqslant y \mid X=a_i\right\}=\sum_{b_j \leqslant y} P\left\{Y=b_j \mid X=a_i\right\}, \quad y \in \mathbf{R} FYX(yai)=P{YyX=ai}=bjyP{Y=bjX=ai},yR
  • 连续型随机变量的条件分布:
    F X ∣ Y ( x ∣ y ) = ∫ − ∞ x f ( u , y ) f Y ( y ) d u , x ∈ R , f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) , x ∈ R F_{X \mid Y}(x \mid y)=\int_{-\infty}^x \frac{f(u, y)}{f_Y(y)} \mathrm{d} u, x \in \mathbf{R}, f_{X \mid Y}(x \mid y)=\frac{f(x, y)}{f_Y(y)}, x \in \mathbf{R} FXY(xy)=xfY(y)f(u,y)du,xR,fXY(xy)=fY(y)f(x,y),xR
    F Y ∣ X ( y ∣ x ) = ∫ − ∞ y f ( x , v ) f X ( x ) d v , y ∈ R , f Y ∣ X ( y ∣ x ) = f ( x , y ) f X ( x ) , y ∈ R F_{Y \mid X}(y \mid x)=\int_{-\infty}^y \frac{f(x, v)}{f_X(x)} \mathrm{d} v, y \in \mathbf{R}, f_{Y \mid X}(y \mid x)=\frac{f(x, y)}{f_X(x)}, y \in \mathbf{R} FYX(yx)=yfX(x)f(x,v)dv,yR,fYX(yx)=fX(x)f(x,y),yR
    概率论与数理统计复习总结1_第19张图片

7. 二维随机变量函数的分布

已知 ( X , Y ) (X, Y) (X,Y) 的联合分布,求 Z = g ( X , Y ) Z=g(X, Y) Z=g(X,Y) 的分布情况:

  • 二维离散型随机变量函数的分布:对于数量有限的 ( X , Y ) (X, Y) (X,Y) 对,枚举 ( X , Y ) (X, Y) (X,Y) 的取值及其对应概率,然后计算 Z Z Z 的概率分布即可;对于数量无限的 ( X , Y ) (X, Y) (X,Y) 对,可采用归纳推理等方式;
    概率论与数理统计复习总结1_第20张图片

  • 二维连续型随机变量函数的分布:

    • 极值函数: X , Y X, Y X,Y 独立, Z 1 = m a x ( X , Y ) Z_1=max(X, Y) Z1=max(X,Y) Z 2 = m i n ( X , Y ) Z_2=min(X, Y) Z2=min(X,Y)
      概率论与数理统计复习总结1_第21张图片
    • 和函数: X , Y X, Y X,Y 不一定独立, Z = X + Y Z=X+Y Z=X+Y
      概率论与数理统计复习总结1_第22张图片

      对 x x x 积分时相当于画一条水平线,从 − ∞ -\infty + ∞ +\infty + x x x 进行累加。因此在计算 Z Z Z 的分布律时需要对水平线的位置(即 z z z 的大小)进行讨论:
    概率论与数理统计复习总结1_第23张图片

    • 一般函数: Z = g ( X , Y ) Z=g(X, Y) Z=g(X,Y),则 F Z ( z ) = P { g ( X , Y ) ≤ z } = ∬ g ( x , y ) ≤ z f ( x , y ) d x   d y F_Z(z)=P\{g(X, Y) \leq z\}=\iint_{g(x, y) \leq z}^{} f(x, y) \mathrm{d} x \mathrm{~d} y FZ(z)=P{g(X,Y)z}=g(x,y)zf(x,y)dx dy f Z ( z ) = F Z ′ ( z ) f_Z(z)=F_Z^{\prime}(z) fZ(z)=FZ(z)

四. 随机变量的数字特征

1. 数学期望

  • 离散型随机变量的数学期望:设离散型随机变量 X X X 的分布律 P { X = a i } = p i P\{X=a_i\}=p_i P{X=ai}=pi,若级数 ∑ i = 1 + ∞ a i p i \sum_{i=1}^{+\infty} a_i p_i i=1+aipi 绝对收敛(即 ∑ i = 1 + ∞ ∣ a i ∣ p i < + ∞ \sum_{i=1}^{+\infty}\left|a_i\right| p_i < +\infty i=1+aipi<+),则 X X X 的数学期望存在,记为 E X E X EX E X = ∑ i = 1 + ∞ a i P { X = a i } = ∑ i = 1 + ∞ a i p i EX=\sum_{i=1}^{+\infty} a_i P\left\{X=a_i\right\}=\sum_{i=1}^{+\infty} a_i p_i EX=i=1+aiP{X=ai}=i=1+aipi

  计算离散型随机变量的数学期望前 必须验证级数的绝对收敛性,因为对于条件收敛的级数,如果改变级数各项的排列顺序,可能使其不收敛或者收敛到不同的值。但 E X EX EX 刻画的是 X X X 的中心化数学特性,不应与其值的排列次序有关,因此在定义 E X EX EX 时,要求其绝对收敛。
  至于为什么改变级数各项的排列顺序可能使其不收敛或者收敛到不同的值,涉及到 Riemman 重排定理。以其中的一个例子说明:设级数 S = Σ i = 1 ∞ ( − 1 ) i ∗ ⌊ ( i + 1 ) / 2 ⌋ = 1 − 1 + 1 2 − 1 2 + . . . S=\Sigma_{i=1}^{\infty}(-1)^i*\lfloor (i+1)/2 \rfloor=1-1+\frac{1}{2}-\frac{1}{2}+... S=Σi=1(1)i⌊(i+1)/2=11+2121+...,则 S = ( 1 − 1 ) + ( 1 2 − 1 2 ) + . . . = 0 S=(1-1)+(\frac{1}{2}-\frac{1}{2})+...=0 S=(11)+(2121)+...=0。但如果将其运算顺序调换,可能得到其它的值,比如按顺序将两正一负进行结合(因为是无穷多项,因此不存在负数项剩余的情况), S = ( 1 + 1 2 − 1 ) + ( 1 3 + 1 4 − 1 2 ) + ( 1 5 + 1 6 − 1 3 ) . . . = 1 − 1 2 + 1 3 − 1 4 + . . . = l n 2 S=(1+\frac{1}{2}-1)+(\frac{1}{3}+\frac{1}{4}-\frac{1}{2})+(\frac{1}{5}+\frac{1}{6}-\frac{1}{3})...=1-\frac{1}{2}+\frac{1}{3}-\frac{1}{4}+...=ln2 S=(1+211)+(31+4121)+(51+6131)...=121+3141+...=ln2。显然,该级数的值发生了改变。

  • 连续型随机变量的数学期望:设连续型随机变量 X X X 的密度函数 f ( x ) f(x) f(x),若积分 ∫ − ∞ + ∞ x f ( x ) d x \int_{-\infty}^{+\infty}xf(x)\mathrm{d} x +xf(x)dx 绝对收敛(即 ∫ − ∞ + ∞ ∣ x ∣ f ( x ) d x < + ∞ \int_{-\infty}^{+\infty} \left|x\right| f(x)\mathrm{d} x < +\infty +xf(x)dx<+),则 X X X 的数学期望存在,记为 E X E X EX E X = ∫ − ∞ + ∞ x f ( x ) d x EX=\int_{-\infty}^{+\infty}xf(x)\mathrm{d} x EX=+xf(x)dx

  由于连续型随机变量取值连续且无限,不存在交换积分顺序的说法,因此很难举出积分不绝对收敛导致级数的值发生改变的情况。但由于连续型随机变量可以看作是微元化了的离散型随机变量,所以也要遵守绝对收敛的前提。
  柯西分布 f ( x ) = 1 π ( 1 + x 2 ) f(x)=\frac{1}{\pi (1+x^2)} f(x)=π(1+x2)1 就是典型的数学期望不存在的例子。

  • 随机变量函数的数学期望:
    E [ g ( X ) ] = { ∑ i = 1 + ∞ g ( a i ) P { X = a i } , X  为离散型,  ∫ − ∞ + ∞ g ( x ) f ( x ) d x , X  为连续型  \begin{aligned} & E[g(X)]= \begin{cases}\sum_{i=1}^{+\infty} g\left(a_i\right) P\left\{X=a_i\right\}, & X \text { 为离散型, } \\ \int_{-\infty}^{+\infty} g(x) f(x) \mathrm{d} x, & X \text { 为连续型 }\end{cases} \end{aligned} E[g(X)]={i=1+g(ai)P{X=ai},+g(x)f(x)dx,X 为离散型X 为连续型 
    E [ g ( X , Y ) ] = { ∑ i = 1 + ∞ ∑ j = 1 + ∞ g ( a i , b j ) P { X = a i , Y = b j } , ( X , Y )  为离散型,  ∫ − ∞ + ∞ ∫ − ∞ + ∞ g ( x , y ) f ( x , y ) d x   d y , ( X , Y )  为连续型  \begin{aligned} & E[g(X, Y)]= \begin{cases}\sum_{i=1}^{+\infty} \sum_{j=1}^{+\infty} g\left(a_i, b_j\right) P\left\{X=a_i, Y=b_j\right\}, & (X, Y) \text { 为离散型, } \\ \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x, y) f(x, y) \mathrm{d} x \mathrm{~d} y, & (X, Y) \text { 为连续型 }\end{cases} \\ \end{aligned} E[g(X,Y)]={i=1+j=1+g(ai,bj)P{X=ai,Y=bj},++g(x,y)f(x,y)dx dy,(X,Y) 为离散型(X,Y) 为连续型 

  • 数学期望的性质:
    概率论与数理统计复习总结1_第24张图片

2. 方差

  • 离散型随机变量的方差: D X = ∑ i = 1 + ∞ ( a i − E X ) 2 P { X = a i } DX= \sum_{i=1}^{+\infty}\left(a_i-E X\right)^2 P\left\{X=a_i\right\} DX=i=1+(aiEX)2P{X=ai}

  • 连续型随机变量的方差: D X = ∫ − ∞ + ∞ ( x − E X ) 2 f ( x ) d x DX= \int_{-\infty}^{+\infty}(x-E X)^2 f(x) \mathrm{d} x DX=+(xEX)2f(x)dx

  • 随机变量的数学期望和方差的关系:
    D X = E ( X − E X ) 2 = E ( X 2 − 2 X ⋅ E X + ( E X ) 2 ) = E X 2 − 2 E X ⋅ E X + ( E X ) 2 = E X 2 − ( E X ) 2 E X 2 = D X + ( E X ) 2 \begin{aligned} DX&=E(X-E X)^2=E\left(X^2-2 X \cdot E X+(E X)^2\right) \\ &=E X^2-2 E X \cdot E X+(E X)^2=E X^2-(E X)^2 \\ E X^2&=D X+(E X)^2 \\ \end{aligned} DXEX2=E(XEX)2=E(X22XEX+(EX)2)=EX22EXEX+(EX)2=EX2(EX)2=DX+(EX)2

  • 方差的性质:
    概率论与数理统计复习总结1_第25张图片

  • 常见分布的数学期望和方差:
    概率论与数理统计复习总结1_第26张图片

3. 协方差与相关系数

  • 二维随机变量的协方差: cov ⁡ ( X , Y ) = E [ ( X − E X ) ( Y − E Y ) ] = E ( X Y ) − E X ⋅ E Y \operatorname{cov}(X, Y)=E[(X-EX)(Y-EY)]=E(XY)-EX \cdot EY cov(X,Y)=E[(XEX)(YEY)]=E(XY)EXEY,用来描述二维随机变量间的相关性;

  • 协方差的性质:
    概率论与数理统计复习总结1_第27张图片

  然而,协方差的值受到量纲的影响,无法直接通过协方差的值判断二维随机变量间的独立性。因此考虑将其标准化:
X ∗ = X − E X D X , Y ∗ = Y − E Y D Y X^*=\frac{X-EX}{\sqrt{DX}},Y^*=\frac{Y-EY}{\sqrt{DY}} X=DX XEXY=DY YEY

  • 二维随机变量的相关系数: ρ ( X , Y ) = cov ⁡ ( X ∗ , Y ∗ ) = cov ⁡ ( X , Y ) D X ⋅ D Y \rho(X, Y)=\operatorname{cov}(X^*, Y^*)=\frac{\operatorname{cov}(X, Y)}{\sqrt{DX\cdot DY}} ρ(X,Y)=cov(X,Y)=DXDY cov(X,Y),用来描述二维随机变量间的相关性,并且消除了协方差受量纲影响的弊端;

  • 相关系数的性质:
    概率论与数理统计复习总结1_第28张图片

      相关系数是用来衡量二维随机变量 X X X Y Y Y线性 关系的指标:
    (1)当 ρ ( X , Y ) = 1 \rho(X, Y)=1 ρ(X,Y)=1 时,称 X X X Y Y Y 正相关;当 ρ ( X , Y ) = − 1 \rho(X, Y)=-1 ρ(X,Y)=1 时,称 X X X Y Y Y 负相关;当 ρ ( X , Y ) = 0 \rho(X, Y)=0 ρ(X,Y)=0 时,称 X X X Y Y Y 不相关;
    (2)当 ∣ ρ ( X , Y ) ∣ ≥ 0.8 |\rho(X, Y)| \geq 0.8 ρ(X,Y)0.8 时,称 X X X Y Y Y 强相关;当 ∣ ρ ( X , Y ) ∣ ≤ 0.5 |\rho(X, Y)| \leq 0.5 ρ(X,Y)0.5 时,称 X X X Y Y Y 弱相关;
    概率论与数理统计复习总结1_第29张图片

  有时会将独立性默认为不相关,其实 ρ X Y \rho_{XY} ρXY 只是衡量线性相关性的指标,而独立性则是衡量全方位相关性的指标。因此,独立能够推出不相关,但不相关不能推出独立。

  • n 维随机变量的协方差矩阵:设随机变量 X = ( X 1 , ⋯   , X n ) T \boldsymbol{X}=(X_1, \cdots, X_n)^T X=(X1,,Xn)T,若 σ i j = cov ⁡ ( X i , X j ) ( i , j = 1 , 2 , ⋯   , n ) \sigma_{i j}=\operatorname{cov}(X_i, X_j)(i, j =1,2, \cdots, n) σij=cov(Xi,Xj)(i,j=1,2,,n) 均存在,则记随机变量 X = ( X 1 , ⋯   , X n ) T \boldsymbol{X}=(X_1, \cdots, X_n)^T X=(X1,,Xn)T 的协方差矩阵为 Σ \boldsymbol{\Sigma} Σ
    Σ = ( σ 11 σ 12 ⋯ σ 1 n σ 21 σ 22 ⋯ σ 2 n ⋮ ⋮ ⋮ σ n 1 σ n 2 ⋯ σ n n ) n × n \boldsymbol{\Sigma}=\left(\begin{array}{cccc} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1 n} \\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2 n} \\ \vdots & \vdots & & \vdots \\ \sigma_{n 1} & \sigma_{n 2} & \cdots & \sigma_{n n} \end{array}\right)_{n \times n} Σ= σ11σ21σn1σ12σ22σn2σ1nσ2nσnn n×n
    显然,协方差矩阵 Σ \boldsymbol{\Sigma} Σ 是一个 n n n 阶对称矩阵。还可以证明 Σ \boldsymbol{\Sigma} Σ 是一个 n n n 阶对称非负定矩阵;

  • n 维随机变量的相关系数矩阵:设随机变量 X = ( X 1 , ⋯   , X n ) T \boldsymbol{X}=(X_1, \cdots, X_n)^T X=(X1,,Xn)T 有协方差矩阵 Σ \boldsymbol{\Sigma} Σ,若 ρ i j = ρ ( X i , X j ) ( i , j = 1 , 2 , ⋯   , n ) \rho_{i j}=\rho(X_i, X_j)(i, j =1,2, \cdots, n) ρij=ρ(Xi,Xj)(i,j=1,2,,n) 均存在,则记随机变量 X = ( X 1 , ⋯   , X n ) T \boldsymbol{X}=(X_1, \cdots, X_n)^T X=(X1,,Xn)T 的相关系数矩阵为 R \boldsymbol{R} R
    R = ( 1 ρ 12 ⋯ ρ 1 n ρ 21 1 ⋯ ρ 2 n ⋮ ⋮ ⋮ ρ n 1 ρ n 2 ⋯ 1 ) n × n \boldsymbol{R}=\left(\begin{array}{cccc} 1 & \rho_{12} & \cdots & \rho_{1 n} \\ \rho_{21} & 1 & \cdots & \rho_{2 n} \\ \vdots & \vdots & & \vdots \\ \rho_{n 1} & \rho_{n 2} & \cdots & 1 \end{array}\right)_{n \times n} R= 1ρ21ρn1ρ121ρn2ρ1nρ2n1 n×n
    由定义易得, X \boldsymbol{X} X 的相关系数矩阵 R \boldsymbol{R} R 与协方差矩阵 Σ \boldsymbol{\Sigma} Σ 之间具有如下关系: R = D − 1 Σ D − 1 \boldsymbol{R}=\boldsymbol{D}^{-1} \boldsymbol{\Sigma} \boldsymbol{D}^{-1} R=D1ΣD1,其中 D = diag ⁡ ( D X 1 , ⋯   , D X n ) \boldsymbol{D}=\operatorname{diag}(\sqrt{D X_1}, \cdots, \sqrt{D X_n}) D=diag(DX1 ,,DXn )

4. 矩

  • 原点矩:设 X X X 为随机变量,如果对正整数 k k k E ( X k ) E(X^k) E(Xk) 存在,则称 E ( X k ) E(X^k) E(Xk) X X X k k k 阶原点矩;
  • 中心矩:设 X X X 为随机变量,如果对正整数 k k k E ( X − E X ) k E(X-EX)^k E(XEX)k 存在,则称 E ( X − E X ) k E(X-EX)^k E(XEX)k X X X k k k 阶中心矩;

  矩其实就是随机变量函数的数学期望:数学期望本质上就是一阶原点矩,方差是二阶中心矩。如果看公式 D X = E X 2 − ( E X ) 2 DX=EX^2-(EX)^2 DX=EX2(EX)2,方差还是二阶原点矩和一阶原点矩平方的差。

  • 偏度:设随机变量 X X X 的三阶矩存在,则称 r 1 = E ( X − E X D X ) 3 r_1=E(\frac{X-EX}{\sqrt{DX}})^3 r1=E(DX XEX)3 X X X 的偏度;

      偏度表示的是标准化的随机变量的三阶原点矩,刻画了随机变量 X X X 的分布的对称性的偏离程度:
    概率论与数理统计复习总结1_第30张图片

  • 峰度:设随机变量 X X X 的四阶原点矩存在,则称 r 2 = E ( X − E X D X ) 4 r_2=E(\frac{X-EX}{\sqrt{DX}})^4 r2=E(DX XEX)4 X X X 的峰度;

     峰度表示的是标准化的随机变量的四阶原点矩,刻画了随机变量 X X X 的分布相较中心 E X EX EX 的聚集程度,即描述 X X X 的分布的峰峭性。当 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma ^2) XN(μ,σ2) 时,有 E ( X − E X ) 4 = 3 σ 4 E(X-EX)^4=3 \sigma ^4 E(XEX)4=3σ4,即 r 2 = 3 r_2=3 r2=3。因此 r 2 > 3 r_2 > 3 r2>3 表示 X ∗ X^* X 在 0 点附近的集中程度要大于 N ( 0 , 1 ) N(0, 1) N(0,1) r 2 < 3 r_2 < 3 r2<3 表示 X ∗ X^* X 在 0 点附近的集中程度要小于 N ( 0 , 1 ) N(0, 1) N(0,1)
    概率论与数理统计复习总结1_第31张图片

  偏度和峰度是随机变量的特殊的 “矩”,用来描述连续型密度函数曲线形状。对于所有的正态分布,偏度和峰度都是确定的。因此可以使用偏度和峰度检验法来判断数据样本是否来自于一个正态分布总体。

5. 条件数学期望

  • 离散型随机变量的条件数学期望:设二维离散型随机变量 ( X , Y ) (X, Y) (X,Y),如果 ∑ i = 1 + ∞ ∣ x i ∣ P { X = x i ∣ Y = y j } < ∞ \sum_{i=1}^{+\infty} |x_i| P\{X=x_i \mid Y=y_j\}<\infty i=1+xiP{X=xiY=yj}<,则称 ∑ i = 1 + ∞ x i P { X = x i ∣ Y = y j } \sum_{i=1}^{+\infty} x_i P\{X=x_i \mid Y=y_j\} i=1+xiP{X=xiY=yj} X X X Y = y j Y=y_j Y=yj 条件下的条件数学期望,记为 E ( X ∣ Y = y j ) = ∑ i = 1 + ∞ x i P { X = x i ∣ Y = y j } E(X \mid Y=y_j)=\sum_{i=1}^{+\infty} x_i P\{X=x_i \mid Y=y_j\} E(XY=yj)=i=1+xiP{X=xiY=yj}
  • 连续型随机变量的条件数学期望:设二维连续型随机变量 ( X , Y ) (X, Y) (X,Y) 的条件密度为 f X ∣ Y ( x ∣ y ) f_{X \mid Y}(x \mid y) fXY(xy),如果 ∫ − ∞ + ∞ ∣ x ∣ f X ∣ Y ( x ∣ y ) d x < ∞ \int_{-\infty}^{+\infty}|x| f_{X \mid Y}(x \mid y) \mathrm{d} x<\infty +xfXY(xy)dx<, 则称 ∫ − ∞ + ∞ x f X ∣ Y ( x ∣ y ) d x \int_{-\infty}^{+\infty} x f_{X \mid Y}(x \mid y) \mathrm{d} x +xfXY(xy)dx X X X Y = y Y=y Y=y 条件下的条件放学期望,记为 E ( X ∣ Y = y ) = ∫ − ∞ + ∞ x f X ∣ Y ( x ∣ y ) d x E(X \mid Y=y)=\int_{-\infty}^{+\infty} x f_{X \mid Y}(x \mid y) \mathrm{d} x E(XY=y)=+xfXY(xy)dx

五. 极限定理

极限定理有两类:一类称为 大数定律,反映了在大量独立重复试验的情况下,频率收敛于概率的特点;另一类称为 中心极限定理,反映了随机变量均值的分布收敛于正态分布。

1. 基本概念

  • 随机变量序列:在相同条件下进行多次重复随机试验,将第 n 次试验可能出现的结果记为 X n X_n Xn,得到的 { X n , n = 1 , 2 , ⋯   } \{X_n, n=1, 2, \cdots\} {Xn,n=1,2,} 称为随机变量序列,记为 { X n } \{X_n\} {Xn}
  • 概率收敛:设随机变量序列 { X n , n = 1 , 2 , ⋯   } \{X_n, n=1,2, \cdots\} {Xn,n=1,2,},对随机变量 X X X 和任意实数 ε > 0 \varepsilon>0 ε>0,如果有
    lim ⁡ n → + ∞ P { ∣ X n − X ∣ < ε } = 1 \lim _{n \rightarrow+\infty} P\{|X_n-X|<\varepsilon\}=1 n+limP{XnX<ε}=1
    则称随机变量序列 { X n } \{X_n\} {Xn} 依概率收敛于随机变量 X X X,简记为 X n ⟶ P n → + ∞ X X_n \underset{n \rightarrow+\infty}{\stackrel{P}{\longrightarrow}} X Xnn+PX
  • 分布收敛:设随机变量序列 { X n , n = 1 , 2 , ⋯   } \{X_n, n=1,2, \cdots\} {Xn,n=1,2,} X X X 的分布函数分别为 F n ( x ) F_n(x) Fn(x) F ( x ) F(x) F(x)。对任意的实数 x x x,如果有
    lim ⁡ n → + ∞ F n ( x ) = F ( x ) \lim _{n \rightarrow+\infty} F_n(x)=F(x) n+limFn(x)=F(x)
    则称随机变量序列 { X n } \{X_n\} {Xn} 依分布收敛于随机变量 X X X,简记为 X n ⟶ L n → + ∞ X X_n \underset{n \rightarrow+\infty}{\stackrel{L}{\longrightarrow}} X Xnn+LX

  随机变量序列依概率 / 分布收敛于随机变量的本质:在大量采样的情况下,实验结果收敛于随机变量的分布。

2. 大数定律

大数定律的本质就是在大量独立重复试验的情况下,频率可以收敛于概率。大数定律有若干个表现形式,如下是常用的三个重要定律:

  • 切比雪夫大数定律:设相互独立的随机变量序列 { X i } \{X_i\} {Xi} E X i E X_i EXi D X i ( i = 1 , 2 , ⋯   ) D X_i (i=1,2, \cdots) DXi(i=1,2,) 都存在,并且存在常数 C C C,使得 D X i ⩽ C ( i = 1 , 2 , ⋯   ) DX_i \leqslant C (i=1,2, \cdots) DXiC(i=1,2,)。则对任意的实数 ε > 0 \varepsilon > 0 ε>0,有
    lim ⁡ n → + ∞ P { ∣ X ˉ n − E X ˉ n ∣ < ε } = 1 \lim _{n \rightarrow+\infty} P\{|\bar{X}_n-E \bar{X}_n|<\varepsilon\}=1 n+limP{XˉnEXˉn<ε}=1

  证:因为 X ˉ n = 1 n ∑ i = 1 n X i \bar{X}_n=\frac{1}{n} \sum_{i=1}^n X_i Xˉn=n1i=1nXi,则 E X ˉ n = 1 n ∑ i = 1 n E X i E \bar{X}_n=\frac{1}{n} \sum_{i=1}^n EX_i EXˉn=n1i=1nEXi D X ˉ n = 1 n 2 ∑ i = 1 n D X i ⩽ C n D \bar{X}_n=\frac{1}{n^2} \sum_{i=1}^n DX_i \leqslant \frac{C}{n} DXˉn=n21i=1nDXinC。根据切比雪夫不等式,有 P { ∣ X ˉ n − E X ˉ n ∣ < ε } ≥ 1 − D X ˉ n ε 2 ≥ 1 − C n ε 2 → 1 P\{|\bar{X}_n-E \bar{X}_n|<\varepsilon\} \geq 1-\frac{D \bar{X}_n}{\varepsilon^2} \geq 1-\frac{C}{n \varepsilon^2} \rightarrow1 P{XˉnEXˉn<ε}1ε2DXˉn1nε2C1

  • 辛钦大数定律:设 { X i } \{X_i\} {Xi} 为独立同分布的随机变量序列, E X i EX_i EXi D X i ( i = 1 , 2 , ⋯   ) DX_i (i=1,2, \cdots) DXi(i=1,2,) 都存在,令 E X i = μ EX_i=\mu EXi=μ D X i = σ 2 ( i = 1 , 2 , ⋯   ) DX_i=\sigma^2 (i=1,2, \cdots) DXi=σ2(i=1,2,),则对任意的实数 ε > 0 \varepsilon>0 ε>0,有
    lim ⁡ n → + ∞ P { ∣ X ˉ n − μ ∣ < ε } = 1 \lim _{n \rightarrow+\infty} P\{|\bar{X}_n-\mu|<\varepsilon\}=1 n+limP{Xˉnμ<ε}=1
    X ˉ n = 1 n ∑ i = 1 n X i \bar{X}_n=\frac{1}{n} \sum_{i=1}^n X_i Xˉn=n1i=1nXi 依概率收敛于 μ \mu μ,记为 X ˉ n ⟶ P n → + ∞ μ \bar{X}_n \underset{n \rightarrow+\infty}{\stackrel{P}{\longrightarrow}} \mu Xˉnn+Pμ

  辛钦大数定律其实就是切比雪夫大数定律的随机变量序列独立同分布的情况。

  • 伯努利大数定律:设 { X i } \{X_i\} {Xi} 为独立同分布的随机变量序列,且 X i ∼ B ( 1 , p ) , i = 1 , 2 , ⋯ X_i \sim B(1, p), i=1,2, \cdots XiB(1,p),i=1,2,。记 μ n = ∑ i = 1 n X i \mu_n=\sum_{i=1}^n X_i μn=i=1nXi,则对任意的实数 ε > 0 \varepsilon>0 ε>0,有
    lim ⁡ n → + ∞ P { ∣ μ n n − p ∣ < ε } = 1 \lim _{n \rightarrow+\infty} P\{\left|\frac{\mu_n}{n}-p\right|<\varepsilon\}=1 n+limP{ nμnp <ε}=1
    μ n n ⟶ P n → + ∞ p \frac{\mu_n}{n} \underset{n \rightarrow+\infty}{\stackrel{P}{\longrightarrow}} p nμnn+Pp

3. 中心极限定理

中心极限定理的本质就是在大量独立重复试验的情况下,随机变量均值的分布收敛于正态分布。主要有以下两种形式:

  • 独立同分布的中心极限定理:设 { X i } \{X_i\} {Xi} 为独立同分布的随机变量序列, E X i EX_i EXi D X i ( i = 1 , 2 , ⋯   ) DX_i (i=1,2, \cdots) DXi(i=1,2,) 都存在,令 E X i = μ EX_i=\mu EXi=μ D X i = σ 2 ( i = 1 , 2 , ⋯   ) DX_i=\sigma^2 (i=1,2, \cdots) DXi=σ2(i=1,2,),则对任意的实数 x x x,有
    lim ⁡ n → + ∞ P { X ˉ n − μ σ / n ≤ x } = Φ ( x ) \lim _{n \rightarrow+\infty} P\{ \frac{\bar{X}_n-\mu}{\sigma/ \sqrt{n}} \leq x\}=\Phi(x) n+limP{σ/n Xˉnμx}=Φ(x)
    X ˉ n = 1 n ∑ i = 1 n X i \bar{X}_n=\frac{1}{n} \sum_{i=1}^n X_i Xˉn=n1i=1nXi 依分布收敛于正态分布 N ( μ , σ 2 n ) N(\mu, \frac{\sigma^2}{n}) N(μ,nσ2),记为 X ˉ n − μ σ / n ∼ 近似 N ( 0 , 1 ) \frac{\bar{X}_n-\mu}{\sigma/ \sqrt{n}} \stackrel{近似}{\sim} N(0, 1) σ/n Xˉnμ近似N(0,1) ∑ i = 1 n X i ∼ 近似 N ( n μ , n σ 2 ) \sum_{i=1}^n X_i \stackrel{近似}{\sim} N(n\mu, n\sigma^2) i=1nXi近似N(nμ,nσ2)
  • 棣莫弗 - 拉普拉斯定理:设 { X i } \{X_i\} {Xi} 为独立同分布的随机变量序列,且 X i ∼ B ( 1 , p ) ( i = 1 , 2 , ⋯   ) X_i \sim B(1, p) (i=1,2, \cdots) XiB(1,p)(i=1,2,),令 Y n = ∑ i = 1 n X i Y_n=\sum_{i=1}^n X_i Yn=i=1nXi,则对任意的实数 x x x,有
    lim ⁡ n → + ∞ P { Y n − n p n p ( 1 − p ) ≤ x } = Φ ( x ) \lim _{n \rightarrow+\infty} P\{ \frac{Y_n-np}{\sqrt{np(1-p)}} \leq x\}=\Phi(x) n+limP{np(1p) Ynnpx}=Φ(x)

你可能感兴趣的:(基础知识,概率论)