概率论与数理统计(Probability & Statistics I)

Table of Contents

  • 概率论的基本概念(The Basic Concept of Probability Theory)
  • 随机变量及其分布(Random Variable and Its Distribution)
    • 随机变量(Random variable)
    • 离散型随机变量及分布律(Discrete random variable & distribution law)
    • 连续型随机变量及概率密度(Continuous random variable & probability density)
    • 随机变量的函数(Random variable function)
  • 多维随机变量及其分布(Multiple Random Variable and Its Distribution)
    • 二维随机变量(Two-dimensional random variable)
    • 边缘分布(Marginal distribution)
    • 条件分布(Conditional distribution)
    • 常见的二维随机变量分布(Usual two-dimensional distribution of random variables)
    • 两个随机变量的函数的分布(The distribution of two random-variables functions)
  • 随机变量的数字特征(Numerical Characteristics)
    • 期望(Expectation)
    • 方差和变异系数(Variance and CV)
    • 分位数和中位数(Quantile and median)
    • 协方差与相关系数(Covariance and correlation coefficient)
    • 矩 (Moment)
    • 偏度和峰度(Skewness and kurtosis)
    • 协方差矩阵与多维正态分布(Covariance matrix and multivariate normal distribution)
  • 大数定律和中心极限定理(Law of Large Numbers & Central Limit Theorem)
  • 附录


概率论与数理统计(Probability & Statistics I)
概率论与数理统计(Probability & Statistics II)

Cheat Sheets:
Probability Cheatsheet v2.0
Probability Cheat Sheet


概率论的基本概念(The Basic Concept of Probability Theory)

  • 基本概念
    概率论 (Theory of Probability): 是一门揭示随机现象统计规律性的数学学科
    统计学 (Statistics):是一门通过收集、整理、分析数据等手段以达到推断或预测考察对象本质或未来的学科.
    随机现象(random phenomenon):个别实验结果呈现不确定性,大量重复实验又具有统计规律性的现象
    随机试验(random experiment):对随机现象的观测
    样本和样本空间:试验的每一个结果称为一个样本(sample),记为s
    所有可能出现的结果的集合称为样本空间 (sample space),记为S
    随机事件(random event):实际问题中,通常会关心随机试验一些特定的结果,它们是S的(可测)子集,称为事件(event),通常用大写字母A, B,…表示。
    可列集(countable):是指一个无穷集S,其元素可与自然数形成一一对应,因此可表为 S = { s 1 , s 2 , … } S=\{s_1,s_2,…\} S={s1,s2,}

  • 事件的关系与运算:设以下大写英文字母均为样本空间S中的事件
    s ∈ A    ⟺    s\in A\iff sA事件A发生
    A ⊂ B    ⟺    A⊂ B\iff AB指事件A必然导致事件B发生
    A = B    ⟺    A ⊂ B 且 B ⊂ A A=B\iff A⊂ B且B⊂ A A=BABBA
    A ∪ B    ⟺    A∪ B\iff AB称为事件A与B的和事件(union of events),表示事件A与B至少有一个发生
    A ∩ B    ⟺    A∩ B\iff AB称为事件A与B的积事件(intersection of events),表示事件A与B同时发生,也常记为AB
    A − B    ⟺    A-B\iff AB称为事件A与B的差事件(difference of events),表示事件A发生且B不发生
    A ˉ = S − A    ⟺    \bar A=S-A \iff Aˉ=SA称为A的对立事件(complementary events),表示事件A不发生
    特别的, S S S 称为必然事件(certain event), ∅ \varnothing 称为不可能事件(impossible event),单点集 { s } \{s\} {s} 称为基本事件(elementary event)
    A B = ∅ AB=\varnothing AB=,则称事件A与B互斥(mutually exclusive events)
    概率论与数理统计(Probability & Statistics I)_第1张图片概率论与数理统计(Probability & Statistics I)_第2张图片概率论与数理统计(Probability & Statistics I)_第3张图片

交换律 A ∪ B = B ∪ A A ∩ B = B ∩ A A∪ B=B∪ A\\ A∩ B=B∩ A AB=BAAB=BA
结合律 ( A ∪ B ) ∪ C = A ∪ ( B ∪ C ) ( A ∩ B ) ∩ C = A ∩ ( B ∩ C ) (A∪ B)∪ C=A∪ (B∪ C)\\ (A∩ B)∩ C=A∩ (B∩ C) (AB)C=A(BC)(AB)C=A(BC)
分配律 A ∪ ( B ∩ C ) = ( A ∪ B ) ∩ ( A ∪ B ) A ∩ ( B ∪ C ) = ( A ∩ B ) ∪ ( A ∩ B ) A∪ (B∩ C)=(A∪ B)∩ (A∪ B)\\ A∩ (B∪ C)=(A∩ B)∪ (A∩ B) A(BC)=(AB)(AB)A(BC)=(AB)(AB)
对偶律(De Morgan) A ∪ B ‾ = A ˉ ∩ B ˉ , A ∩ B ‾ = A ˉ ∪ B ˉ ⋃ i = 1 n A i ‾ = ⋂ i = 1 n A i ˉ , ⋂ i = 1 n A i ‾ = ⋃ i = 1 n A i ˉ \overline{ A∪ B}=\bar A∩\bar B ,\quad \overline{ A∩ B}=\bar A∪\bar B \\ \overline{\displaystyle\bigcup_{i=1}^{n}A_i}=\displaystyle\bigcap_{i=1}^{n}\bar{A_i} ,\quad \overline{\displaystyle\bigcap_{i=1}^{n}A_i}=\displaystyle\bigcup_{i=1}^{n}\bar{A_i} AB=AˉBˉ,AB=AˉBˉi=1nAi=i=1nAiˉ,i=1nAi=i=1nAiˉ
  • 频率(frequency): f n ( A ) = n A n f_n(A)=\dfrac{n_A}{n} fn(A)=nnA
    其中 n A n_A nA 是A发生的次数(频数),n 是总试验次数,称 f n ( A ) f_n(A) fn(A) 为A在这 n 次试验中发生频率。
    频率的性质
    1 ° 0 ⩽ f n ( A ) ⩽ 1 1\degree\quad 0⩽ f_n(A) ⩽ 1 1°0fn(A)1
    2 ° f n ( S ) = 1 2\degree\quad f_n(S)= 1 2°fn(S)=1
    3 ° f n ( ⋃ i = 1 k A i ) = ∑ i = 1 k f n ( A i ) ,   A 1 , A 2 , ⋯   , A k 3\degree\quad f_n(\displaystyle\bigcup_{i=1}^{k}A_i)=\displaystyle\sum_{i=1}^{k}f_n(A_i),\ A_1,A_2,\cdots,A_k 3°fn(i=1kAi)=i=1kfn(Ai), A1,A2,,Ak两两互斥

  • 概率(probability)
    (统计性定义)当试验的次数增加时,随机事件A发生的频率的稳定值p称为概率,记为 P ( A ) = p P(A)=p P(A)=p
    (公理化定义)设随机试验对应的样本空间为S,定义P(A)满足以下性质,称P(A)为A的概率
    非负性: P ( A ) ⩾ 0 P(A)⩾ 0 P(A)0
    规范性: P ( S ) = 1 P(S)=1 P(S)=1
    可列可加性: A i A j = ∅ , ( i ≠ j )    ⟹    P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) A_iA_j=\varnothing,(i\neq j)\implies P(\displaystyle\bigcup_{i=1}^{∞}A_i)=\displaystyle\sum_{i=1}^{∞}P(A_i) AiAj=,(i=j)P(i=1Ai)=i=1P(Ai)
    概率的性质
    1 ° P ( ∅ ) = 0 1\degree\quad P(\varnothing)= 0 1°P()=0
    2 ° P ( A ) = 1 − P ( A ˉ ) 2\degree\quad P(A)=1-P(\bar A) 2°P(A)=1P(Aˉ)
    3 ° A i A j = ∅ , ( i ≠ j )    ⟹    P ( ⋃ i = 1 k A i ) = ∑ i = 1 k P ( A i ) 3\degree\quad A_iA_j=\varnothing,(i\neq j)\implies P(\displaystyle\bigcup_{i=1}^{k}A_i)=\displaystyle\sum_{i=1}^{k}P(A_i) 3°AiAj=,(i=j)P(i=1kAi)=i=1kP(Ai)
    4 ° A ⊂ B    ⟹    P ( B − A ) = P ( B ) − P ( A ) ,   P ( B ) ⩾ P ( A ) 4\degree\quad A⊂ B\implies P(B-A)=P(B)-P(A),\ P(B)⩾ P(A) 4°ABP(BA)=P(B)P(A), P(B)P(A)
    5 ° P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A B ) 5\degree\quad P(A∪ B)=P(A)+P(B)-P(AB) 5°P(AB)=P(A)+P(B)P(AB)

  • 等可能概型(classical probability):若试验满足,样本空间S中样本点有限(有限性),出现每一个样本点的概率相等(等可能性),称这种试验为等可能概型(或古典概型)。
    P ( A ) = k n P(A)=\dfrac{k}{n} P(A)=nk,其中k为A中所包含的样本点数,n为S中的样本点数。

  • 几何概型(geometric probability):(将等可能的原理进一步拓广)
    当样本空间 S 为 R n \R^n Rn 中的某个区域,如果没有特别的信息,则认为 R n \R^n Rn 中每一点的出现都是等可能的。因此如果事件A为S中的某个子区域,则认为A发生的概率为A与S 体积(或面积、长度)之比。

  • 条件概率(conditional probability):设A,B为事件,P(A)>0,定义 P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(BA)=P(A)P(AB)称为是A发生条件下B发生的概率
    条件概率空间:原样本空间的缩减 S → A S\to A SA
    条件概率:原概率的限制 P ( ⋅ ) → P ( ⋅ ∣ A ) P(\cdot)\to P(\cdot|A) P()P(A)
    概率论与数理统计(Probability & Statistics I)_第4张图片

  • 条件概率性质 P ( ⋅ ∣ A ) P(\cdot|A) P(A) 是概率,具有概率的所有性质
    非负性: P ( B ∣ A ) ⩾ 0 P(B|A)⩾ 0 P(BA)0
    规范性: P ( S ∣ A ) = 1 P(S|A)=1 P(SA)=1
    可列可加性: B i B j = ∅ , ( i ≠ j )    ⟹    P ( ⋃ i = 1 ∞ B i ∣ A ) = ∑ i = 1 ∞ P ( B i ∣ A ) B_iB_j=\varnothing,(i\neq j)\implies P(\displaystyle\bigcup_{i=1}^{∞}B_i|A)=\displaystyle\sum_{i=1}^{∞}P(B_i|A) BiBj=,(i=j)P(i=1BiA)=i=1P(BiA)
    乘法公式
    P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(AB)=P(A)P(B|A)=P(B)P(A|B) P(AB)=P(A)P(BA)=P(B)P(AB)
    P ( A B C ) = P ( A ) P ( B ∣ A ) P ( C ∣ A B ) P(ABC)=P(A)P(B|A)P(C|AB) P(ABC)=P(A)P(BA)P(CAB)
    P ( A 1 A 2 ⋯ A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) ⋯ P ( A n ∣ A 1 A 2 ⋯ A n − 1 ) P(A_1A_2\cdots A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|A_1A_2\cdots A_{n-1}) P(A1A2An)=P(A1)P(A2A1)P(A3A1A2)P(AnA1A2An1)

  • 事件独立性(independent):设A,B是两随机事件,若 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B),称事件A,B独立
    A A A B B B独立    ⟺    A ˉ \iff \bar A Aˉ B B B独立    ⟺    A \iff A A B ˉ \bar B Bˉ独立    ⟺    A ˉ \iff \bar A Aˉ B ˉ \bar B Bˉ独立
    事件 A , B , C 独立,指下式同时成立。若只有前三个式子成立,称为两两独立。两两独立并不能决定三个事件独立。
    { P ( A B ) = P ( A ) P ( B ) P ( B C ) = P ( C ) P ( C ) P ( A C ) = P ( A ) P ( C ) P ( A B C ) = P ( A ) P ( B ) P ( C ) \begin{cases} P(AB)=P(A)P(B) \\ P(BC)=P(C)P(C) \\ P(AC)=P(A)P(C) \\ P(ABC)=P(A)P(B)P(C) \end{cases} P(AB)=P(A)P(B)P(BC)=P(C)P(C)P(AC)=P(A)P(C)P(ABC)=P(A)P(B)P(C)
    推广:事件 A 1 , A 2 , ⋯   , A n A_1,A_2,\cdots,A_n A1,A2,,An 相互独立,则对 2 ⩽ k ⩽ n 2⩽ k ⩽ n 2kn均有
    P ( A i 1 A i 2 ⋯ A i k ) = ∏ j = 1 k P ( A i j ) P(A_{i_1}A_{i_2}\cdots A_{i_k})=\displaystyle\prod_{j=1}^{k}P(A_{i_j}) P(Ai1Ai2Aik)=j=1kP(Aij)
    实际问题中,常常不是用定义去验证事件的独立性,而是由实际情形来判断其独立性.
    一旦确定事件是相互独立的,在计算概率时,尽可能转化为事件的乘积进行计算

  • 全概率公式 (complete probability formula):一个用于计算概率的公式,先化整为零,再聚零为整
    B 1 , ⋯   , B n B_1,\cdots,B_n B1,,Bn S S S 的一个划分, A A A为事件,则 P ( A ) = ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P(A)=\displaystyle\sum_{i=1}^{n}P(A|B_i)P(B_i) P(A)=i=1nP(ABi)P(Bi) S S S 的事件 B 1 , ⋯   , B n B_1,\cdots,B_n B1,,Bn 为一个划分,指它们满足
    ( 1 )   ⋃ i = 1 n B i = S ( 2 )   B i B j = ∅ , ( i , j = 1 , 2 , ⋯   , n ;   i ≠ j ) (1)\ \displaystyle\bigcup_{i=1}^{n}B_i=S\quad (2)\ B_iB_j=\varnothing,(i,j=1,2,\cdots,n;\ i\neq j) (1) i=1nBi=S(2) BiBj=,(i,j=1,2,,n; i=j)
    概率论与数理统计(Probability & Statistics I)_第5张图片

  • 贝叶斯公式(Bayes formula):全概率公式通过划分 { B i ∣ i = 1 , ⋯   , n } \{B_i |i=1,\cdots,n\} {Bii=1,,n} 来计算一个事件 A A A 的概率,有时候需要弄清楚在A发生的条件下,每个 B i B_i Bi 发生的条件概率
    B 1 , ⋯   , B n B_1,\cdots,B_n B1,,Bn S S S 的一个划分, A A A为事件,则对于 i = 1 , ⋯   , n i=1,\cdots,n i=1,,n,有 P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P(B_i|A)=\dfrac{P(A|B_i)P(B_i)}{\displaystyle\sum_{i=1}^{n}P(A|B_i)P(B_i)} P(BiA)=i=1nP(ABi)P(Bi)P(ABi)P(Bi)

贝叶斯公式是关于随机事件 A A A B B B的条件概率和边缘概率的。

随机变量及其分布(Random Variable and Its Distribution)

随机变量(Random variable)

  • 随机变量:设随机试验的样本空间为 S S S,若 X = X ( e ) X=X(e) X=X(e)为定义在 S S S上的实值单值函数,则称 X ( e ) X(e) X(e) 为随机变量, 简写为 X X X
    概率论与数理统计(Probability & Statistics I)_第6张图片
    说明:
    (1) 随机变量 X ( e ) : S → R X(e):S\to R X(e):SR 为一映射,其自变量具有随机性;
    (2) 随机事件可以表示为 A = { e : X ( e ) ∈ I } = { X ∈ I } , I ⊂ R A=\{e : X(e)\in I\}=\{X\in I\}, I⊂ \R A={e:X(e)I}={XI},IR
    如:将一枚均匀的硬币抛掷3次, 样本空间为
    S = { H H H , H H T , H T H , H T T , T H H , T H T , T T H , T T T } S=\{HHH,HHT,HTH,HTT,THH,THT,TTH,TTT\} S={HHH,HHT,HTH,HTT,THH,THT,TTH,TTT}
    若随机变量 X X X 表示3次中出现正面(H)的次数, 则
    随机事件 A={正面出现了一次}={X=1}
    随机事件 B={3次出现的情况相同}={X=0或3}
    随机事件 C={正面至少出现了一次}={ X ⩾ 1 X⩾ 1 X1}
    (3) 对于 i ≠ j i\neq j i=j,则必有 { X = i } ∩ { X = j } = ∅ \{X=i\}∩\{X=j\}=\varnothing {X=i}{X=j}=
    (4) 一般用大写英文字母 X,Y,Z 或希腊字母 ξ , η ξ,η ξ,η 等来表示随机变量

离散型随机变量及分布律(Discrete random variable & distribution law)

  • 定义:若随机变量X的取值为有限个或可数 , 则称 X 为离散(discrete)型随机变量。
  • 分布律 (distribution law):离散随机变量在各特定取值上的概率,也称概率质量函数(probability mass function, PMF)
    P { X = x k } = p k ,   k = 1 , 2 , ⋯ P\{X=x_k\}=p_k,\ k=1,2,\cdots P{X=xk}=pk, k=1,2,
X X X x 1 x 2 ⋯ x k ⋯ x_1\quad x_2 \quad \cdots\quad x_k\quad \cdots x1x2xk 随机变量的所有可能取值
P P P p 1 p 2 ⋯ p k ⋯ p_1\quad p_2 \quad \cdots\quad p_k\quad \cdots p1p2pk 取每个可能取值相应的概率

分布律满足: p k ⩾ 0 ,   ∑ k = 1 + ∞ p k = 1 p_k⩾ 0,\ \displaystyle\sum_{k=1}^{+∞}p_k=1 pk0, k=1+pk=1

  • 几种重要的离散型随机变量
    0-1分布:随机变量X只能取0和1,又称两点分布或伯努利(Bernoulli)分布,记为 X ∼ B ( 1 , p ) X∼ B(1,p) XB(1,p)
    P { X = k } = p k ( 1 − p ) 1 − k ,   k = 0 , 1 P\{X=k\}=p^k(1-p)^{1-k},\ k=0,1 P{X=k}=pk(1p)1k, k=0,1
    常用它来表示两个状态的问题(即随机试验的结果只有两个,称为伯努利试验):
    S = { s 1 , s 2 } , X ( s 1 ) = 1 , X ( s 2 ) = 0 S=\{s_1,s_2\},\quad X(s_1)=1,X(s_2)=0 S={s1,s2},X(s1)=1,X(s2)=0
    应用:检查产品的质量是否合格;对新生婴儿的性别进行登记
    二项分布(Binomial):将上述伯努利试验独立地做n次,称为n重伯努利试验。设状态 s 1 , s 2 s_1, s_2 s1,s2 在每次试验中出现的概率是不变的。设X为n次试验中状态 s 1 s_1 s1出现的次数,则X的取值为 0 , 1 , ⋯   , n 0, 1, \cdots , n 0,1,,n ,而 X = k X=k X=k 的不同情况共有 ( n k ) {n \choose k} (kn) 种,他们是互斥的,于是 P { X = k } = ∁ n k p k ( 1 − p ) n − k , k = 1 , 2 , ⋯   , n P\{X=k\}=∁^k_np^k(1-p)^{n-k},k=1,2,\cdots,n P{X=k}=nkpk(1p)nk,k=1,2,,n称具有上述分布律的随机变量为服从参数为n, p的二项分布, 记为 X ∼ B ( n , p ) X∼ B(n,p) XB(n,p)
    应用:有放回抽样
    泊松分布(Poisson):若的概率分布律为 P { X = k } = λ k e − λ k ! , k = 0 , 1 , 2 , ⋯ P\{X=k\}=\dfrac{λ^ke^{-λ}}{k!},k=0,1,2,\cdots P{X=k}=k!λkeλ,k=0,1,2,其中 λ > 0 λ>0 λ>0,就称服从参数为 λ λ λ的泊松分布,记为 X ∼ π ( λ ) X∼ π(λ) Xπ(λ) X ∼ P ( λ ) X∼ P(λ) XP(λ)
    应用:一段时间内物理试验仪器捕获的粒子数;一本书中的错字数;
    几何分布(geometric):在重复多次的伯努利试验中, 试验进行到某种结果首次出现为止, 此时X 的分布律为 P { X = k } = p ( 1 − p ) k − 1 , k = 1 , 2 , ⋯ P\{X=k\}=p(1-p)^{k-1},k=1,2,\cdots P{X=k}=p(1p)k1,k=1,2,X 的这种分布由此等比数列(几何级数)表达, 故称为参数为p的几何分布。记为 X ∼ Geom ( p ) X∼ \text{Geom}(p) XGeom(p)

连续型随机变量及概率密度(Continuous random variable & probability density)

  • 分布函数(distribution function):对于随机变量X,定义函数 F ( x ) = P { X ⩽ x } , ∀ x ∈ R F(x)=P\{X⩽ x\},∀ x\in \R F(x)=P{Xx},xR 称为X的累积分布函数(cumulative distribution function ,CDF) 。
    任何随机变量都有相应的分布函数,分布函数可以给出随机变量落入任意一个范围的可能性。
    一般地,离散型随机变量的分布函数为阶梯函数。
    分布函数的基本性质
    (1) 0 ⩽ F ( x ) ⩽ 1 0⩽ F(x) ⩽ 1 0F(x)1
    (2) F ( x ) F(x) F(x)是单调不减函数
    (3) F ( − ∞ ) = lim ⁡ x → − ∞ F ( x ) = 0 F ( + ∞ ) = lim ⁡ x → + ∞ F ( x ) = 1 F(-∞)=\lim\limits_{x\to-∞}F(x)=0\\ F(+∞)=\lim\limits_{x\to+∞}F(x)=1 F()=xlimF(x)=0F(+)=x+limF(x)=1
    (4) F ( x ) F(x) F(x)是右连续函数,即 F ( x ) = F ( x + 0 ) = lim ⁡ y → x + F ( y ) F(x)=F(x+0)=\lim\limits_{y\to x^+}F(y) F(x)=F(x+0)=yx+limF(y)

  • 连续型随机变量(continuous random variable):设随机变量 X 的分布函数 F(x) 可表成其中 F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-∞}^{x}f(t)\mathrm{d}t F(x)=xf(t)dt其中 f ( x ) ⩾ 0 f(x)⩾ 0 f(x)0, 则称X是连续型随机变量, f ( x ) f(x) f(x) 称为是 X 的概率密度函数(probability density function ,PDF),简称概率密度
    概率密度的性质
    (1) f ( x ) ⩾ 0 f(x)⩾ 0 f(x)0
    (2) ∫ − ∞ + ∞ f ( t ) d t = 1 \int_{-∞}^{+∞}f(t)\mathrm{d}t=1 +f(t)dt=1
    (3) ∀ x 1 < x 2 , P { x 1 < X ⩽ x 2 } = F ( X 2 ) − F ( x 1 ) = ∫ x 1 x 2 f ( t ) d t ∀ x_1x1<x2,P{x1<Xx2}=F(X2)F(x1)=x1x2f(t)dt
    (4) 在 F ( x ) F(x) F(x)的连续点, f ( x ) = F ′ ( x ) f(x)=F'(x) f(x)=F(x)
    几种重要的连续型分布
    均匀分布(uniformly):若X的概率密度函数为 f ( x ) = { 1 b − a , x ∈ [ a , b ] 0 , x ∈ ( − ∞ , a ) ∪ ( b , + ∞ ) f(x)=\begin{cases}\dfrac{1}{b-a},x\in[a,b] \\ 0,x\in(-∞,a)∪(b,+∞) \end{cases} f(x)=ba1,x[a,b]0,x(,a)(b,+)其中 a < b aa<b,就称X服从 [ a , b ] [a,b] [a,b]上的均匀分布,记为 X ∼ U ( a , b ) X∼ U(a,b) XU(a,b)
    分布函数为 F ( x ) = { 0 , x < a x − a b − a , x ∈ [ a , b ] 1 , x > b F(x)=\begin{cases} 0,\quad xb \end{cases} F(x)=0,x<abaxa,x[a,b]1,x>b
    均匀分布具有等可能性:取值的概率只与小区间的长度有关,而与其位置无关。
    概率论与数理统计(Probability & Statistics I)_第7张图片
    指数分布(exponential):若X的概率密度函数为 f ( x ) = { 1 θ e − x / θ , x > 0 0 , x ⩽ 0 f(x)=\begin{cases} \frac{1}{θ}e^{-x/θ},x>0 \\ 0,\quad x⩽ 0 \end{cases} f(x)={θ1ex/θ,x>00,x0其中 θ > 0 θ>0 θ>0,就称X服从参数 θ θ θ的指数分布,记为 X ∼ E ( θ ) X∼ E(θ) XE(θ) X ∼ E x p ( θ ) X∼ Exp(θ) XExp(θ)
    分布函数为 F ( x ) = { 1 − e − x / θ , x > 0 0 , x ⩽ 0 F(x)=\begin{cases} 1-e^{-x/θ},&x>0 \\ 0,&x⩽ 0 \end{cases} F(x)={1ex/θ,0,x>0x0
    指数分布具有无记忆性:对于 t 0 > 0 , t > 0 , P { X > t 0 + t ∣ X > t 0 } = P { X > t } t_0>0,t>0,P\{X>t_0+t|X>t_0\}=P\{X>t\} t0>0,t>0,P{X>t0+tX>t0}=P{X>t}
    应用:通常用来描述生命周期;表示独立随机事件发生的时间间隔;
    正态分布(normal distribution):连续型随机变量 X 如果有如下形式的概率密度函数 f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 ( μ ∈ R , σ > 0 ) f(x)=\dfrac{1}{\sqrt{2π}σ}e^{-\frac{(x-μ)^2}{2σ^2}}\quad (μ\in\R,σ>0) f(x)=2π σ1e2σ2(xμ)2(μR,σ>0)则称 X 服从参数为 ( μ , σ 2 ) (μ,σ^2) (μ,σ2) 的正态分布 或高斯分布,记为 X ∼ N ( μ , σ 2 ) X∼ N(μ,σ^2) XN(μ,σ2)
    特征:(1) f ( x ) f(x) f(x)关于 x = μ x=μ x=μ对称, f max ⁡ = f ( μ ) = 1 2 π σ f_{\max}=f(μ)=\dfrac{1}{\sqrt{2π}σ} fmax=f(μ)=2π σ1
    (2) 当 x ⩽ μ x⩽ μ xμ时, f ( x ) f(x) f(x)是严格单调递增函数
    (3) x = μ ± σ x=μ± σ x=μ±σ f ( x ) f(x) f(x)的拐点
    (4) lim ⁡ ∣ x − μ ∣ → + ∞ f ( x ) = 0 \lim\limits_{|x-μ|\to+∞}f(x)=0 xμ+limf(x)=0
    两个参数的含义:
    (1) 当固定 σ 改变 μ 的大小时,图形的形状不变,只是沿着 x 轴作平移变换;
    μ 称为位置参数,决定对称轴位置
    (2) 当固定 μ 改变 σ 的大小时,图形的对称轴不变,而形状在改变, σ 越小图形越高越瘦,σ 越大图形越矮越胖;
    σ 称为尺度参数,决定曲线分散程度
    概率论与数理统计(Probability & Statistics I)_第8张图片概率论与数理统计(Probability & Statistics I)_第9张图片
    应用:测量值与实际值的误差;分子热运动时每个分子的运动速率;

X ∼ N ( μ , σ 2 ) , X X∼ N(μ,σ^2), X XN(μ,σ2),X的分布函数 F ( x ) = P { X ⩽ x } = ∫ − ∞ x f ( t ) d t F(x)=P\{X⩽ x\}=\int_{-∞}^{x}f(t)\mathrm{d}t F(x)=P{Xx}=xf(t)dt一般无解析解。

标准正态分布(standard normal distribution):若 Z ∼ N ( 0 , 1 ) Z∼ N(0,1) ZN(0,1) 称 Z 服从标准正态分布
Z 的概率密度函数: ϕ ( z ) = 1 2 π e − z 2 2 ϕ(z)=\dfrac{1}{\sqrt{2π}}e^{-\frac{z^2}{2}} ϕ(z)=2π 1e2z2
Z 的分布函数: Φ ( z ) = ∫ − ∞ z 1 2 π e − t 2 2 d t Φ(z)=\int_{-∞}^{z}\dfrac{1}{\sqrt{2π}}e^{-\frac{t^2}{2}}\mathrm{d}t Φ(z)=z2π 1e2t2dt
重要性质:关于 轴的对称 Φ ( − z 0 ) = 1 − Φ ( z 0 ) Φ(-z_0)=1-Φ(z_0) Φ(z0)=1Φ(z0)
X ∼ N ( μ , σ 2 ) X∼ N(μ,σ^2) XN(μ,σ2)时, X − μ σ ∼ N ( 0 , 1 ) \frac{X-μ}{σ}∼ N(0,1) σXμN(0,1),由此可知
∀ a ∈ R , F X ( a ) = P { X ⩽ a } = P { X − μ σ ⩽ a − μ σ } = Φ ( a − μ σ ) ∀ a\in\R,F_X(a)=P\{X⩽ a\}=P\{\frac{X-μ}{σ} ⩽ \frac{a-μ}{σ}\}=Φ(\frac{a-μ}{σ}) aR,FX(a)=P{Xa}=P{σXμσaμ}=Φ(σaμ)

常采用的3σ原则: P { ∣ X − μ ∣ ⩽ 3 σ } ≈ 0.9974 P\{|X-μ|⩽ 3σ\}\approx 0.9974 P{Xμ3σ}0.9974

随机变量的函数(Random variable function)

有时我们关心的随机变量不是直接观测得到的随机变量,而是它的函数。
如要得到一个圆的面积 Y,总是测量其半径,半径的测量值可看作随机变量X,若 X ∼ N ( μ , σ 2 ) X∼ N(μ,σ^2) XN(μ,σ2),则 Y 的分布是什么?

一般地,设 X 为一随机变量, 分布已知.。 Y = g ( X ) Y=g(X) Y=g(X), 其中 g 为一确定的实函数, 要求 Y 的分布。仍讨论离散型与连续型两种情况:
(1) 设 X 为离散型,求 Y 的分布律
先逐个算出 Y 的取值 g ( x 1 ) , g ( x 2 ) , ⋯ g(x_1), g(x_2), \cdots g(x1),g(x2),, 每个 g ( x k ) g(x_k) g(xk)对应的概率为 p k p_k pk;再合并所有相同的 g ( x k ) g(x_k) g(xk), 并将对应的 p k p_k pk 相加。
(2) 设 X 为连续型随机变量, 具有概率密度 f X ( x ) f_X (x) fX(x), 又设 Y = g ( X ) Y=g(X) Y=g(X)亦为连续型随机变量,求其概率密度 f Y ( y ) f_Y(y) fY(y)
先求分布函数 F Y ( y ) = P { Y ⩽ y } = P { g ( X ) ⩽ y } = ∫ D f X ( x ) d x F_Y(y)=P\{Y⩽ y\}=P\{g(X)⩽ y\}=\int_Df_X(x)\mathrm{d}x FY(y)=P{Yy}=P{g(X)y}=DfX(x)dx,其中积分区域 D = { x ∣ g ( x ) ⩽ y } D=\{x|g(x)⩽ y \} D={xg(x)y},然后对分布函数求导, 得到概率概率密度。

定理:设随机变量 X ∼ F X ( x ) , x ∈ R ,   Y = g ( X ) , g ′ ( X ) > 0 或 g ′ ( X ) < 0 X∼ F_X(x),x\in\R,\ Y=g(X),g'(X)>0或g'(X)<0 XFX(x),xR, Y=g(X),g(X)>0g(X)<0,则具有概率密度为 f Y ( y ) = { f X [ h ( y ) ] ⋅ ∣ h ′ ( y ) ∣ ,   y ∈ [ a , b ] 0 , y ∈ ( − ∞ , a ) ∪ ( b , + ∞ ) f_Y(y)=\begin{cases} f_X[h(y)]\cdot |h'(y)|,\ y\in[a,b] \\ 0,y\in(-∞,a)∪(b,+∞) \end{cases} fY(y)={fX[h(y)]h(y), y[a,b]0,y(,a)(b,+)其中 [ a , b ] [a,b] [a,b]是 Y 的取值范围,h是g 的反函数,即 h ( y ) = x h(y)=x h(y)=x

一般地,若随机变量 X ∼ N ( μ , σ 2 ) X∼ N(μ,σ^2) XN(μ,σ2)
Y = a X + b    ⟹    Y ∼ N ( a μ + b , a 2 σ 2 ) Y=aX+b\implies Y∼ N(aμ+b,a^2σ^2) Y=aX+bYN(aμ+b,a2σ2)
概率论与数理统计(Probability & Statistics I)_第10张图片

多维随机变量及其分布(Multiple Random Variable and Its Distribution)

二维随机变量(Two-dimensional random variable)

  • 二维随机变量:设E是一个随机试验,样本空间 S = e S={e} S=e;设 X = X ( e ) X=X(e) X=X(e) Y = Y ( e ) Y=Y(e) Y=Y(e)是定义在S上的随机变量,由它们构成的向量 ( X , Y ) (X,Y) (X,Y)称为二维随机向量或二维随机变量。
    二维随机变量分布函数:设 ( X , Y ) (X,Y) (X,Y) 是二维随机变量,对于任意 ( x , y ) ∈ R 2 (x,y)\in\R^2 (x,y)R2,二维函数 F ( x , y ) = P { { X ⩽ x } ∩ { Y ⩽ y } } ≜ P { X ⩽ x , Y ⩽ y } F(x,y)=P\{\{X⩽ x\}∩\{Y⩽ y\}\}\triangleq P\{X⩽ x,Y⩽ y\} F(x,y)=P{{Xx}{Yy}}P{Xx,Yy}称为二维随机变量的联合分布函数 ( joint distribution function,JDF)。
    性质:
    1。 F ( x , y ) F(x, y) F(x,y)为单调不减函数
    2。 ∀ x , y ,   0 ⩽ F ( x , y ) ⩽ 1 , F ( + ∞ , + ∞ ) = 1 , F ( − ∞ , y ) = F ( x , − ∞ ) = F ( − ∞ , − ∞ ) = 0 ∀ x,y,\ 0⩽ F(x, y) ⩽ 1, \\ F(+∞,+∞)=1,F(-∞,y)=F(x,-∞)=F(-∞,-∞)=0 x,y, 0F(x,y)1,F(+,+)=1,F(,y)=F(x,)=F(,)=0
    3。 F ( x , y ) F(x, y) F(x,y)关于 x , y x,y x,y右连续,即: lim ⁡ ϵ → 0 + F ( x + ϵ , y ) = lim ⁡ ϵ → 0 + F ( x , y + ϵ ) = F ( x , y ) \lim\limits_{ϵ\to 0^+}F(x+ϵ,y)=\lim\limits_{ϵ\to 0^+}F(x,y+ϵ)=F(x,y) ϵ0+limF(x+ϵ,y)=ϵ0+limF(x,y+ϵ)=F(x,y)
    4。 x 1 < x 2 , y 1 < y 2    ⟹    P { x 1 < X ⩽ x 2 , y 1 < Y ⩽ y 2 } = F ( x 2 , y 2 ) − F ( x 1 , y 2 ) − F ( x 2 , y 1 ) + F ( x 1 , y 1 ) ⩾ 0 x_1x1<x2,y1<y2P{x1<Xx2,y1<Yy2}=F(x2,y2)F(x1,y2)F(x2,y1)+F(x1,y1)0
    概率论与数理统计(Probability & Statistics I)_第11张图片 概率论与数理统计(Probability & Statistics I)_第12张图片

  • 二维离散型随机变量:若二维随机变量 ( X , Y ) (X,Y) (X,Y)全部可能取到的不同值是有限对或可列无限对,则称 ( X , Y ) (X,Y) (X,Y)是二维离散型随机变量。
    联合分布律:设 ( X , Y ) (X,Y) (X,Y)所有可能取值为 ( X i , Y i ) (X_i,Y_i) (Xi,Yi),称 P { X = x i , Y = y j } = p i j , i , j = 1 , 2 , ⋯ P\{X=x_i,Y=y_j\}=p_{ij},i,j=1,2,\cdots P{X=xi,Y=yj}=pij,i,j=1,2,为二维离散型随机变量 ( X , Y ) (X,Y) (X,Y)的联合(概率)分布律。
    联合分布律的性质: ( 1 )   0 ⩽ p i j ⩽ 1 ; ( 2 )   ∑ i = 1 ∞ ∑ j = 1 ∞ p i j = 1 (1)\ 0 ⩽ p_{ij} ⩽ 1;\quad (2)\ \displaystyle\sum_{i=1}^{∞}\sum_{j=1}^{∞}p_{ij}=1 (1) 0pij1;(2) i=1j=1pij=1

  • 二维连续型随机变量:设二维随机变量 ( X , Y ) (X, Y) (X,Y) 的分布函数 F ( x , y ) , ∃ f ( x , y ) ⩾ 0 , ∀ ( x , y ) ∈ R 2 F(x,y), ∃ f(x,y)⩾0,∀ (x,y)\in\R^2 F(x,y),f(x,y)0,(x,y)R2 F ( x , y ) = ∫ − ∞ x ∫ − ∞ y f ( u , v ) d u d v F(x,y)=\int_{-∞}^{x}\int_{-∞}^{y}f(u,v)\mathrm{d}u\mathrm{d}v F(x,y)=xyf(u,v)dudv则称 ( X , Y ) (X, Y) (X,Y)二维连续型随机变量 f ( x , y ) f(x,y) f(x,y) 称为是 ( X , Y ) (X, Y) (X,Y)联合概率密度(函数)
    概率密度的性质:
    1。 f ( x , y ) ⩾ 0 f(x,y)⩾0 f(x,y)0
    2。 ∫ − ∞ + ∞ ∫ − ∞ + ∞ f ( x , y ) d x d y = 1 \int_{-∞}^{+∞}\int_{-∞}^{+∞}f(x,y)\mathrm{d}x\mathrm{d}y=1 ++f(x,y)dxdy=1
    3。在 f ( x , y ) f ( x , y ) f(x,y) 的连续点处,有 ∂ F ( x , y ) ∂ x ∂ y = f ( x , y ) \dfrac{∂ F(x,y)}{∂ x∂ y}=f(x,y) xyF(x,y)=f(x,y)
    4。对于任何 R 2 \R^2 R2上的区域G, 有 P { ( X , Y ) ∈ G } = ∬ G f ( u , v ) d u d v P\{(X,Y)\in G\}=\iint_G f(u,v)\mathrm{d}u\mathrm{d}v P{(X,Y)G}=Gf(u,v)dudv
    概率论与数理统计(Probability & Statistics I)_第13张图片

边缘分布(Marginal distribution)

边缘分布律:对分布律为 P { X = x i , Y = y j } = p i j P\{X=x_i,Y=y_j\}=p_{ij} P{X=xi,Y=yj}=pij 的二维离散型随机变量
P { X = x i } = P { X = x i , ⋃ j = 1 ∞ { Y = y j } } = ∑ j = 1 ∞ p i j ≜ p i ∙ \displaystyle P\{X=x_i\}=P\{X=x_i,\bigcup^{∞}_{j=1}\{Y=y_j\}\}=\sum_{j=1}^{∞}p_{ij}\triangleq p_{i\bullet} P{X=xi}=P{X=xi,j=1{Y=yj}}=j=1pijpi
同理, P { Y = y j } = P { ⋃ i = 1 ∞ { X = x i } , Y = y j } = ∑ i = 1 ∞ p i j ≜ p ∙ j \displaystyle P\{Y=y_j\}=P\{\bigcup^{∞}_{i=1}\{X=x_i\},Y=y_j\}=\sum_{i=1}^{∞}p_{ij}\triangleq p_{\bullet j} P{Y=yj}=P{i=1{X=xi},Y=yj}=i=1pijpj

X / Y y 1 y 2 ⋯ y j ⋯ P { X = x i } x 1 p 11 p 12 ⋯ p 1 j ⋯ p 1 ∙ x 2 p 21 p 22 ⋯ p 2 j ⋯ p 2 ∙ ⋮ ⋯ ⋯ ⋯ ⋮ x i p i 1 p i 2 ⋯ p i j ⋯ p i ∙ ⋮ ⋯ ⋯ ⋯ ⋮ P { Y = y j } p ∙ 1 p ∙ 2 ⋯ p ∙ j ⋯ 1 \begin{array}{c|ccccc|c} X/Y &y_1&y_2&\cdots&y_j&\cdots &P\{X=x_i\} \\ \hline x_1 &p_{11}&p_{12}&\cdots&p_{1j}&\cdots &p_{1 \bullet} \\ x_2 &p_{21}&p_{22}&\cdots&p_{2j}&\cdots &p_{2 \bullet} \\ \vdots &\cdots&&\cdots&&\cdots &\vdots \\ x_i&p_{i1}&p_{i2}&\cdots&p_{ij}&\cdots &p_{i \bullet} \\ \vdots &\cdots&&\cdots&&\cdots &\vdots \\ \hline P\{Y=y_j\} &p_{\bullet 1}&p_{\bullet 2}&\cdots&p_{\bullet j}&\cdots &1 \end{array} X/Yx1x2xiP{Y=yj}y1p11p21pi1p1y2p12p22pi2p2yjp1jp2jpijpjP{X=xi}p1p2pi1

边缘概率密度:对概率密度为 f ( x , y ) f(x,y) f(x,y)的二维连续型随机变量
f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y f Y ( y ) = ∫ − ∞ + ∞ f ( x , y ) d x f_X(x)=\int_{-∞}^{+∞}f(x,y)\mathrm{d}y\\ f_Y(y)=\int_{-∞}^{+∞}f(x,y)\mathrm{d}x fX(x)=+f(x,y)dyfY(y)=+f(x,y)dx

边缘分布函数:可以由 ( X , Y ) (X,Y) (X,Y)的分布函数所确定
F X ( x ) ≜ P { X ⩽ x , Y < + ∞ } = F ( x , + ∞ ) = lim ⁡ y → + ∞ F ( x , y ) F_X(x)\triangleq P\{X ⩽ x,Y<+∞\}=F(x,+∞)=\lim\limits_{y\to +∞}F(x,y) FX(x)P{Xx,Y<+}=F(x,+)=y+limF(x,y)
F Y ( y ) ≜ P { X < + ∞ , Y ⩽ y } = F ( + ∞ , y ) = lim ⁡ x → + ∞ F ( x , y ) F_Y(y)\triangleq P\{X<+∞,Y ⩽ y\}=F(+∞,y)=\lim\limits_{x\to +∞}F(x,y) FY(y)P{X<+,Yy}=F(+,y)=x+limF(x,y)

相互独立(mutual independence): ∀ x , y , F ( x , y ) = F X ( x ) F Y ( y ) ∀ x,y,F(x,y)=F_X(x)F_Y(y) x,y,F(x,y)=FX(x)FY(y)称随机变量X ,Y相互独立。
二维离散型:    ⟺    p i j = p i ∙ p ∙ j \iff p_{ij}=p_{i \bullet}p_{\bullet j} pij=pipj
二维连续型:    ⟺    f ( x , y ) = f X ( x ) f Y ( y ) \iff f(x,y)=f_X(x)f_Y(y) f(x,y)=fX(x)fY(y)

条件分布(Conditional distribution)

条件分布(conditional distribution):对二维离散型随机变量 ( X , Y ) (X,Y) (X,Y)
P { X = x i ∣ Y = y j } = P { X = x i , Y = y j } P { Y = y j } = p i j p ∙ j P\{X=x_i|Y=y_j\}=\dfrac{P\{X=x_i,Y=y_j\}}{P\{Y=y_j\}}=\dfrac{p_{ij}}{p_{\bullet j}} P{X=xiY=yj}=P{Y=yj}P{X=xi,Y=yj}=pjpij
同理, P { Y = y j ∣ X = x i } = P { X = x i , Y = y j } P { X = x i } = p i j p i ∙ P\{Y=y_j|X=x_i\}=\dfrac{P\{X=x_i,Y=y_j\}}{P\{X=x_i\}}=\dfrac{p_{ij}}{p_{i \bullet}} P{Y=yjX=xi}=P{X=xi}P{X=xi,Y=yj}=pipij

条件概率密度:对二维连续型随机变量 ( X , Y ) (X,Y) (X,Y)
Y = y Y=y Y=y时,X的条件概率密度 f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) f_{X|Y}(x|y)=\dfrac{f(x,y)}{f_Y(y)} fXY(xy)=fY(y)f(x,y)
同理 f Y ∣ X ( y ∣ x ) = f ( x , y ) f X ( x ) f_{Y|X}(y|x)=\dfrac{f(x,y)}{f_X(x)} fYX(yx)=fX(x)f(x,y)

条件分布函数
F X ∣ Y ( x ∣ y ) = P { X ⩽ x ∣ Y = y } = { P { X ⩽ x , Y = y } P { Y = y } , P { Y = y } > 0 , 即 Y 为 离 散 型 随 机 变 量 lim ⁡ ϵ → 0 + P { X ⩽ x , y < Y ⩽ y + ϵ } P { y < Y ⩽ y + ϵ } , P { Y = y } = 0 , 即 Y 为 连 续 型 随 机 变 量 F_{X|Y}(x|y)=P\{X⩽ x|Y=y\}= \\ \begin{cases} \dfrac{P\{X⩽ x,Y=y\}}{P\{Y=y\}}, & P\{Y=y\}>0,即Y为离散型随机变量 \\ \\ \lim\limits_{ϵ\to 0^+}\dfrac{P\{X⩽ x,yFXY(xy)=P{XxY=y}=P{Y=y}P{Xx,Y=y},ϵ0+limP{y<Yy+ϵ}P{Xx,y<Yy+ϵ},P{Y=y}>0,YP{Y=y}=0,Y

常见的二维随机变量分布(Usual two-dimensional distribution of random variables)

二维均匀分布:概率密度函数 f ( x , y ) = { 1 / A , ( x , y ) ∈ D 0 , ( x , y ) ∉ D , 其 中 A 为 D 的 面 积 f(x,y)=\begin{cases} 1/A,&(x,y)\in D \\ 0,&(x,y) \not\in D \end{cases},其中A为D的面积 f(x,y)={1/A,0,(x,y)D(x,y)DAD

二维正态分布
(1) 设 Z 1 , Z 2 Z_1, Z_2 Z1,Z2 为独立同分布 N ( 0 , 1 ) N(0,1) N(0,1) 的随机变量,则 Z 1 , Z 2 Z_1, Z_2 Z1,Z2 的联合密度函数为 f ( z 1 , z 2 ) = 1 2 π e − 1 2 ( z 1 2 + z 2 2 ) f(z_1,z_2)=\frac{1}{2π}e^{-\frac{1}{2}(z_1^2+z_2^2)} f(z1,z2)=2π1e21(z12+z22)
(2) 作变换,令 { X = σ 1 Z 1 + μ 1 Y = σ 2 ( ρ Z 1 + 1 − ρ 2 Z 2 ) + μ 2 ( σ 1 , σ 2 > 0 , ∣ ρ ∣ < 1 ) \begin{cases} X=σ_1Z_1+μ _1 \\ Y=σ_2(ρZ_1+\sqrt{1-ρ^2}Z_2)+μ _2 \end{cases}\quad (σ_1,σ_2>0,|ρ|<1) {X=σ1Z1+μ1Y=σ2(ρZ1+1ρ2 Z2)+μ2(σ1,σ2>0,ρ<1)
则称 ( X , Y ) (X ,Y) (X,Y) 服从参数为 ( μ 1 , μ 2 , σ 1 2 , σ 2 2 , ρ ) (μ _1,μ _2,σ_1^2,σ_2^2,ρ) (μ1,μ2,σ12,σ22,ρ) 的二维正态分布,记为 ( X , Y ) ∼ N ( μ 1 , μ 2 , σ 1 2 , σ 2 2 , ρ ) (X ,Y)∼ N(μ _1,μ _2,σ_1^2,σ_2^2,ρ) (X,Y)N(μ1,μ2,σ12,σ22,ρ)
变换可写成矩阵式: ( X Y ) = A ( Z 1 Z 2 ) + ( μ 1 μ 2 ) \begin{pmatrix} X\\ Y\end{pmatrix} =A \begin{pmatrix} Z_1\\ Z_2\end{pmatrix}+ \begin{pmatrix} μ _1\\ μ _2\end{pmatrix} (XY)=A(Z1Z2)+(μ1μ2)
其中 A = ( σ 1 0 σ 2 ρ σ 2 1 − ρ 2 ) A=\begin{pmatrix} σ_1&0\\ σ_2ρ&σ_2\sqrt{1-ρ^2}\end{pmatrix} A=(σ1σ2ρ0σ21ρ2 ),于是 ( Z 1 Z 2 ) = A − 1 ( X − μ 1 Y − μ 2 ) \begin{pmatrix} Z_1\\ Z_2\end{pmatrix} =A^{-1} \begin{pmatrix} X-μ _1\\ Y-μ _2\end{pmatrix} (Z1Z2)=A1(Xμ1Yμ2)
将此式代入 Z 1 , Z 2 Z_1, Z_2 Z1,Z2 的联合密度式,并注意到此变换中雅可比行列式为
∣ J ∣ = det ⁡ A − 1 = 1 σ 1 σ 2 1 − ρ 2 |J|=\det A^{-1}=\dfrac{1}{σ_1σ_2\sqrt{1-ρ^2}} J=detA1=σ1σ21ρ2 1
即得 ( X , Y ) (X ,Y) (X,Y) 的联合密度 f ( x , y ) f(x,y) f(x,y) (过于复杂,就不写了!)

由定义知若 ρ = 0 ρ=0 ρ=0 , 则 X = σ 1 Z 1 + μ 1 , Y = σ 2 Z 2 + μ 2 X=σ_1Z_1+μ _1,Y=σ_2Z_2+μ _2 X=σ1Z1+μ1,Y=σ2Z2+μ2,即 X 与 Y 独立。从密度函数看,X 与Y 地位是对称的,决定了它们的分布特点是一致的.
二维正态的定义的特点使得许多分布规律的计算十分简单。
概率论与数理统计(Probability & Statistics I)_第14张图片
边缘概率密度:因 X = σ 1 Z 1 + μ 1 X=σ_1Z_1+μ _1 X=σ1Z1+μ1,故 X ∼ N ( μ 1 , σ 1 2 ) X∼ N(μ _1,σ_1^2) XN(μ1,σ12),由对称性可知 Y ∼ N ( μ 2 , σ 2 2 ) Y∼ N(μ _2,σ_2^2) YN(μ2,σ22),两个边缘分布均与ρ无关
条件概率密度:由于 Z 1 = x − μ 1 σ 1 Z_1=\frac{x-μ _1}{σ_1} Z1=σ1xμ1,故 Y ∣ X = x ∼ N ( σ 2 ρ σ 1 ( x − μ 1 ) , σ 2 2 ( 1 − ρ 2 ) ) Y|_{X=x}∼ N(\frac{σ_2ρ}{σ_1}(x-μ _1),σ_2^2(1-ρ^2)) YX=xN(σ1σ2ρ(xμ1),σ22(1ρ2))
由对称性可知 X ∣ Y = y ∼ N ( σ 1 ρ σ 2 ( y − μ 2 ) , σ 1 2 ( 1 − ρ 2 ) ) X|_{Y=y}∼ N(\frac{σ_1ρ}{σ_2}(y-μ _2),σ_1^2(1-ρ^2)) XY=yN(σ2σ1ρ(yμ2),σ12(1ρ2))

两个随机变量的函数的分布(The distribution of two random-variables functions)

二维离散:设二维离散型随机变量 ( X , Y ) (X ,Y) (X,Y)具有分布律 P { X = x i , Y = y j } = p i j P\{X=x_i,Y=y_j\}=p_{ij} P{X=xi,Y=yj}=pij
(1) 若 U = u ( X , Y ) U=u(X,Y) U=u(X,Y),求 U U U的分布律
先确定 U U U的取值 u i u_i ui,再找出 P { U = u i } = P { ( X , Y ) ∈ D } P\{U=u_i\}=P\{(X,Y)\in D\} P{U=ui}=P{(X,Y)D}计算分布律
(2) 若 U = u ( X , Y ) , V = v ( X , Y ) U=u(X,Y),V=v(X,Y) U=u(X,Y),V=v(X,Y),求 ( U , V ) (U,V) (U,V)的分布律
先确定 ( U , V ) (U,V) (U,V)的取值 ( u i , v i ) (u_i,v_i) (ui,vi),再找出 P { U = u i , V = v i } = P { ( X , Y ) ∈ D } P\{U=u_i,V=v_i\}=P\{(X,Y)\in D\} P{U=ui,V=vi}=P{(X,Y)D}计算分布律

二维连续:设二维连续型随机变量 ( X , Y ) (X ,Y) (X,Y)具有概率密度 f ( x , y ) f(x,y) f(x,y)
(1) 若 Z = g ( X , Y ) Z=g(X,Y) Z=g(X,Y),求 Z Z Z的分布函数或概率密度
先求Z的分布函数 F Z ( z ) = P { Z ⩽ z } = P { g ( X , Y ) ⩽ z } = ∬ g ( x , y ) ⩽ z f ( x , y ) d x d y \displaystyle F_Z(z)=P\{Z⩽ z\}=P\{g(X,Y)⩽ z\}=\iint_{g(x,y)⩽ z}f(x,y)\mathrm{d}x\mathrm{d}y FZ(z)=P{Zz}=P{g(X,Y)z}=g(x,y)zf(x,y)dxdy
再求导得到密度函数 f Z ( z ) = F Z ′ ( z ) f_Z(z)=F'_Z(z) fZ(z)=FZ(z)
(2) 若 ( U , V ) (U,V) (U,V) ( X , Y ) (X,Y) (X,Y)的一个变换,并设变换的雅可比矩阵存在, 且行列式不为零,求 ( U , V ) (U,V) (U,V)的概率密度
( U , V ) (U,V) (U,V) ( X , Y ) (X,Y) (X,Y)的一个变换,故可设 X = x ( U , V ) , Y = y ( U , V ) X=x(U,V),Y=y(U,V) X=x(U,V),Y=y(U,V)
( U , V ) (U,V) (U,V)的分布函数可表为 G ( u , v ) = P { U ⩽ u , V ⩽ v } = ∬ U ⩽ u , V ⩽ v f ( x , y ) d x d y \displaystyle G(u,v)=P\{U⩽ u,V⩽ v\}=\iint_{U⩽ u,V⩽ v}f(x,y)\mathrm{d}x\mathrm{d}y G(u,v)=P{Uu,Vv}=Uu,Vvf(x,y)dxdy
将上述变换用于积分,即得
G ( u , v ) = ∫ − ∞ u ∫ − ∞ v f [ x ( s , t ) , y ( s , t ) ] ∣ J ( s , t ) ∣ d s d t \displaystyle G(u,v)=\int_{-∞}^{u}\int_{-∞}^{v}f[x(s,t),y(s,t)]|J(s,t)|\mathrm{d}s\mathrm{d}t G(u,v)=uvf[x(s,t),y(s,t)]J(s,t)dsdt
对上式求两阶偏导,即得
g ( u , v ) = ∂ 2 G ( u , v ) ∂ u ∂ v = f [ x ( s , t ) , y ( s , t ) ] ∣ J ( s , t ) ∣ g(u,v)=\dfrac{∂^2G(u,v)}{∂ u ∂ v}=f[x(s,t),y(s,t)]|J(s,t)| g(u,v)=uv2G(u,v)=f[x(s,t),y(s,t)]J(s,t)

连续型随机变量 Z = X + Y Z=X+Y Z=X+Y的分布
F Z ( z ) = ∫ − ∞ z f Z ( u ) d u F_Z(z)=\int_{-∞}^{z}f_Z(u)\mathrm{d}u FZ(z)=zfZ(u)du
f Z ( z ) = ∫ − ∞ + ∞ f ( z − y , y ) d y = ∫ − ∞ + ∞ f ( x , z − x ) d x f_Z(z)=\int_{-∞}^{+∞}f(z-y,y)\mathrm{d}y=\int_{-∞}^{+∞}f(x,z-x)\mathrm{d}x fZ(z)=+f(zy,y)dy=+f(x,zx)dx
特别, 若X与Y 独立, 则有
f Z ( z ) = ∫ − ∞ + ∞ f X ( z − y ) f Y ( y ) d y = ∫ − ∞ + ∞ f Y ( z − x ) f X ( x ) d x f_Z(z)=\int_{-∞}^{+∞}f_X(z-y)f_Y(y)\mathrm{d}y=\int_{-∞}^{+∞}f_Y(z-x)f_X(x)\mathrm{d}x fZ(z)=+fX(zy)fY(y)dy=+fY(zx)fX(x)dx
f Z f_Z fZ f X f_X fX f Y f_Y fY卷积,记为 f Z = f X ∗ f Y f_Z=f_X * f_Y fZ=fXfY
概率论与数理统计(Probability & Statistics I)_第15张图片
对于一般的两独立正态随机变量 X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 )    ⟹    Z = X + Y ∼ N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) X∼ N(μ _1,σ_1^2),Y∼ N(μ _2,σ_2^2)\implies Z=X+Y∼ N(μ _1+μ _2,σ_1^2+σ_2^2) XN(μ1,σ12),YN(μ2,σ22)Z=X+YN(μ1+μ2,σ12+σ22)

独立的离散型变量的和分布
(1) X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn独立且服从分布 B ( 1 , p ) B(1,p) B(1,p),则 X 1 + X 2 + ⋯ + X n ∼ B ( n , p ) X_1+X_2+\cdots+X_n∼ B(n,p) X1+X2++XnB(n,p)
(2) X 1 ∼ B ( n 1 , p ) , X 2 ∼ B ( n 2 , p ) X_1∼ B(n_1,p),X_2∼ B(n_2,p) X1B(n1,p),X2B(n2,p),且两者独立,则 X 1 + X 2 ∼ B ( n 1 + n 2 , p ) X_1+X_2∼ B(n_1+n_2,p) X1+X2B(n1+n2,p)
(3) X 1 ∼ π ( θ 1 ) , X 2 ∼ π ( θ 2 ) X_1∼ π(θ_1),X_2∼ π(θ_2) X1π(θ1),X2π(θ2),且两者独立,则 X 1 + X 2 ∼ π ( 1 / θ 1 + 1 / θ 2 ) X_1+X_2∼ π(1/θ_1+1/θ_2) X1+X2π(1/θ1+1/θ2)

连续型随机变量 Z = X / Y Z=X/Y Z=X/Y的分布
f Z ( z ) = { ( 1 + z ) − 2 , z > 0 0 , z ⩽ 0 f_Z(z)=\begin{cases} (1+z)^{-2},&z>0 \\ 0,&z⩽ 0 \end{cases} fZ(z)={(1+z)2,0,z>0z0

极值分布(extreme-value distribution):设 X, Y 独立,分别有分布函数 F X ( x ) , F Y ( y ) F_X(x),F_Y(y) FX(x),FY(y)
max ⁡ { X , Y } \max\{X, Y\} max{X,Y}的分布函数 F m a x ( z ) = F X ( x ) F Y ( y ) F_{max}(z)=F_X(x)F_Y(y) Fmax(z)=FX(x)FY(y)
min ⁡ { X , Y } \min\{X, Y\} min{X,Y}的分布函数 F m i n ( z ) = 1 − ( 1 − F X ( x ) ) ( 1 − F Y ( y ) ) F_{min}(z)=1-(1-F_X(x))(1-F_Y(y)) Fmin(z)=1(1FX(x))(1FY(y))

上述结论容易推广到 n 个随机变量:即设 X i X_i Xi 的分布函数分别为 F i ( x i ) , i = 1 , ⋯   , n F_i(x_i), i=1,\cdots,n Fi(xi),i=1,,n,且相互独立。则 max ⁡ { X 1 , ⋯   , X n } , min ⁡ { X 1 , ⋯   , X n } \max\{X_1,\cdots,X_n\}, \min\{X_1,\cdots,X_n\} max{X1,,Xn},min{X1,,Xn}的分布函数:
F max ⁡ ( z ) = ∏ i = 1 n F i ( z ) ; F min ⁡ ( z ) = 1 − ∏ i = 1 n ( 1 − F i ( z ) ) \displaystyle F_{\max}(z)=\prod_{i=1}^{n}F_i(z); \quad F_{\min}(z)=1-\prod_{i=1}^{n}(1-F_i(z)) Fmax(z)=i=1nFi(z);Fmin(z)=1i=1n(1Fi(z))

随机变量的数字特征(Numerical Characteristics)

期望(Expectation)

数学期望(mathematical expectation):设离散型随机变量 X的分布律为 P { X = x k } = p k P\{X=x_k\}=p_k P{X=xk}=pk
事件的平均值 x ˉ = 1 n ∑ k x k n k = ∑ k x k f k \displaystyle\bar x=\frac{1}{n}\sum_kx_kn_k=\sum_kx_kf_k xˉ=n1kxknk=kxkfk,其中 f k f_k fk为事件 { X = x k } \{X=x_k\} {X=xk}发生的频率,由第一章可知当 n → ∞ , f k → p k n\to ∞,f_k\to p_k n,fkpk,因此 x ˉ \bar x xˉ的稳定值为 ∑ k x k p k \displaystyle\sum_kx_kp_k kxkpk,由此
若级数 E ( X ) = ∑ k = 1 ∞ x k p k E(X)=\displaystyle\sum_{k=1}^{∞}x_kp_k E(X)=k=1xkpk绝对收敛,则称 E ( X ) E(X) E(X)为随机变量 X X X的数学期望,简称期望,又称均值(mean)
连续型随机变量 X X X的密度函数为 f ( x ) f(x) f(x),期望定义为 E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)=\int_{-∞}^{+∞}xf(x)\mathrm{d}x E(X)=+xf(x)dx
期望的物理意义:x 轴上一根线密度为 f(x) 的细棒的质心坐标
Y=g(X) 的数学期望
(1) 离散情形: E ( Y ) = E ( g ( X ) ) = ∑ k = 1 ∞ g ( x k ) p k E(Y)=E(g(X))=\displaystyle\sum_{k=1}^{∞}g(x_k)p_k E(Y)=E(g(X))=k=1g(xk)pk
(2) 连续情形: E ( Y ) = E ( g ( X ) ) = ∫ − ∞ + ∞ g ( x ) f ( x ) d x E(Y)=E(g(X))=\displaystyle\int_{-∞}^{+∞}g(x)f(x)\mathrm{d}x E(Y)=E(g(X))=+g(x)f(x)dx
Z=h(X,Y) 的数学期望
(1) 离散情形: E ( Z ) = E ( h ( X , Y ) ) = ∑ i = 1 ∞ ∑ j = 1 ∞ h ( x i , y j ) p i j E(Z)=E(h(X,Y))=\displaystyle\sum_{i=1}^{∞}\sum_{j=1}^{∞}h(x_i,y_j)p_{ij} E(Z)=E(h(X,Y))=i=1j=1h(xi,yj)pij
(2) 连续情形: E ( Z ) = E ( h ( X , Y ) ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ h ( x , y ) f ( x , y ) d x d y E(Z)=E(h(X,Y))=\displaystyle\int_{-∞}^{+∞}\int_{-∞}^{+∞}h(x,y)f(x,y)\mathrm{d}x\mathrm{d}y E(Z)=E(h(X,Y))=++h(x,y)f(x,y)dxdy
特别的, E ( X ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ x f ( x , y ) d x d y E(X)=\displaystyle\int_{-∞}^{+∞}\int_{-∞}^{+∞}xf(x,y)\mathrm{d}x\mathrm{d}y E(X)=++xf(x,y)dxdy
E ( Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ y f ( x , y ) d x d y E(Y)=\displaystyle\int_{-∞}^{+∞}\int_{-∞}^{+∞}yf(x,y)\mathrm{d}x\mathrm{d}y E(Y)=++yf(x,y)dxdy
期望的性质(c为常数)
(1) E ( c ) = c E(c)=c E(c)=c
(2) E ( c X ) = c E ( X ) E(cX)=cE(X) E(cX)=cE(X)
(3) E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)
(4) 设 X , Y X,Y X,Y相互独立, E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)

方差和变异系数(Variance and CV)

方差(variance):设X是一个随机变量 D ( X ) = V a r ( X ) = E [ ( X − E ( X ) ) 2 ] D(X)=Var(X)=E[(X-E(X))^2] D(X)=Var(X)=E[(XE(X))2]叫做X的方差。将 σ ( X ) = D ( X ) σ(X)=\sqrt{D(X)} σ(X)=D(X) 为 X 的标准差(standard deviation)或均方差。方差和标准差刻画了 X取值的波动性,是衡量取值分散程度的数字特征。
方差的计算
特别的,当 g ( X ) = ( X − E ( X ) ) 2 ,   D ( X ) = E ( g ( X ) ) g(X)=(X-E(X))^2,\ D(X)=E(g(X)) g(X)=

你可能感兴趣的:(数学(Math))