概率论与数理统计(Probability & Statistics I)
概率论与数理统计(Probability & Statistics II)
Cheat Sheets:
Probability Cheatsheet v2.0
Probability Cheat Sheet
基本概念
概率论 (Theory of Probability): 是一门揭示随机现象统计规律性的数学学科
统计学 (Statistics):是一门通过收集、整理、分析数据等手段以达到推断或预测考察对象本质或未来的学科.
随机现象(random phenomenon):个别实验结果呈现不确定性,大量重复实验又具有统计规律性的现象
随机试验(random experiment):对随机现象的观测
样本和样本空间:试验的每一个结果称为一个样本(sample),记为s
所有可能出现的结果的集合称为样本空间 (sample space),记为S
随机事件(random event):实际问题中,通常会关心随机试验一些特定的结果,它们是S的(可测)子集,称为事件(event),通常用大写字母A, B,…表示。
可列集(countable):是指一个无穷集S,其元素可与自然数形成一一对应,因此可表为 S = { s 1 , s 2 , … } S=\{s_1,s_2,…\} S={s1,s2,…}
事件的关系与运算:设以下大写英文字母均为样本空间S中的事件
s ∈ A ⟺ s\in A\iff s∈A⟺事件A发生
A ⊂ B ⟺ A⊂ B\iff A⊂B⟺指事件A必然导致事件B发生
A = B ⟺ A ⊂ B 且 B ⊂ A A=B\iff A⊂ B且B⊂ A A=B⟺A⊂B且B⊂A
A ∪ B ⟺ A∪ B\iff A∪B⟺称为事件A与B的和事件(union of events),表示事件A与B至少有一个发生
A ∩ B ⟺ A∩ B\iff A∩B⟺称为事件A与B的积事件(intersection of events),表示事件A与B同时发生,也常记为AB
A − B ⟺ A-B\iff A−B⟺称为事件A与B的差事件(difference of events),表示事件A发生且B不发生
A ˉ = S − A ⟺ \bar A=S-A \iff Aˉ=S−A⟺称为A的对立事件(complementary events),表示事件A不发生
特别的, S S S 称为必然事件(certain event), ∅ \varnothing ∅称为不可能事件(impossible event),单点集 { s } \{s\} {s} 称为基本事件(elementary event)
若 A B = ∅ AB=\varnothing AB=∅,则称事件A与B互斥(mutually exclusive events)
交换律 | A ∪ B = B ∪ A A ∩ B = B ∩ A A∪ B=B∪ A\\ A∩ B=B∩ A A∪B=B∪AA∩B=B∩A |
---|---|
结合律 | ( A ∪ B ) ∪ C = A ∪ ( B ∪ C ) ( A ∩ B ) ∩ C = A ∩ ( B ∩ C ) (A∪ B)∪ C=A∪ (B∪ C)\\ (A∩ B)∩ C=A∩ (B∩ C) (A∪B)∪C=A∪(B∪C)(A∩B)∩C=A∩(B∩C) |
分配律 | A ∪ ( B ∩ C ) = ( A ∪ B ) ∩ ( A ∪ B ) A ∩ ( B ∪ C ) = ( A ∩ B ) ∪ ( A ∩ B ) A∪ (B∩ C)=(A∪ B)∩ (A∪ B)\\ A∩ (B∪ C)=(A∩ B)∪ (A∩ B) A∪(B∩C)=(A∪B)∩(A∪B)A∩(B∪C)=(A∩B)∪(A∩B) |
对偶律(De Morgan) | A ∪ B ‾ = A ˉ ∩ B ˉ , A ∩ B ‾ = A ˉ ∪ B ˉ ⋃ i = 1 n A i ‾ = ⋂ i = 1 n A i ˉ , ⋂ i = 1 n A i ‾ = ⋃ i = 1 n A i ˉ \overline{ A∪ B}=\bar A∩\bar B ,\quad \overline{ A∩ B}=\bar A∪\bar B \\ \overline{\displaystyle\bigcup_{i=1}^{n}A_i}=\displaystyle\bigcap_{i=1}^{n}\bar{A_i} ,\quad \overline{\displaystyle\bigcap_{i=1}^{n}A_i}=\displaystyle\bigcup_{i=1}^{n}\bar{A_i} A∪B=Aˉ∩Bˉ,A∩B=Aˉ∪Bˉi=1⋃nAi=i=1⋂nAiˉ,i=1⋂nAi=i=1⋃nAiˉ |
频率(frequency): f n ( A ) = n A n f_n(A)=\dfrac{n_A}{n} fn(A)=nnA
其中 n A n_A nA 是A发生的次数(频数),n 是总试验次数,称 f n ( A ) f_n(A) fn(A) 为A在这 n 次试验中发生频率。
频率的性质
1 ° 0 ⩽ f n ( A ) ⩽ 1 1\degree\quad 0⩽ f_n(A) ⩽ 1 1°0⩽fn(A)⩽1
2 ° f n ( S ) = 1 2\degree\quad f_n(S)= 1 2°fn(S)=1
3 ° f n ( ⋃ i = 1 k A i ) = ∑ i = 1 k f n ( A i ) , A 1 , A 2 , ⋯ , A k 3\degree\quad f_n(\displaystyle\bigcup_{i=1}^{k}A_i)=\displaystyle\sum_{i=1}^{k}f_n(A_i),\ A_1,A_2,\cdots,A_k 3°fn(i=1⋃kAi)=i=1∑kfn(Ai), A1,A2,⋯,Ak两两互斥
概率(probability)
(统计性定义)当试验的次数增加时,随机事件A发生的频率的稳定值p称为概率,记为 P ( A ) = p P(A)=p P(A)=p
(公理化定义)设随机试验对应的样本空间为S,定义P(A)满足以下性质,称P(A)为A的概率
非负性: P ( A ) ⩾ 0 P(A)⩾ 0 P(A)⩾0
规范性: P ( S ) = 1 P(S)=1 P(S)=1
可列可加性: A i A j = ∅ , ( i ≠ j ) ⟹ P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) A_iA_j=\varnothing,(i\neq j)\implies P(\displaystyle\bigcup_{i=1}^{∞}A_i)=\displaystyle\sum_{i=1}^{∞}P(A_i) AiAj=∅,(i=j)⟹P(i=1⋃∞Ai)=i=1∑∞P(Ai)
概率的性质
1 ° P ( ∅ ) = 0 1\degree\quad P(\varnothing)= 0 1°P(∅)=0
2 ° P ( A ) = 1 − P ( A ˉ ) 2\degree\quad P(A)=1-P(\bar A) 2°P(A)=1−P(Aˉ)
3 ° A i A j = ∅ , ( i ≠ j ) ⟹ P ( ⋃ i = 1 k A i ) = ∑ i = 1 k P ( A i ) 3\degree\quad A_iA_j=\varnothing,(i\neq j)\implies P(\displaystyle\bigcup_{i=1}^{k}A_i)=\displaystyle\sum_{i=1}^{k}P(A_i) 3°AiAj=∅,(i=j)⟹P(i=1⋃kAi)=i=1∑kP(Ai)
4 ° A ⊂ B ⟹ P ( B − A ) = P ( B ) − P ( A ) , P ( B ) ⩾ P ( A ) 4\degree\quad A⊂ B\implies P(B-A)=P(B)-P(A),\ P(B)⩾ P(A) 4°A⊂B⟹P(B−A)=P(B)−P(A), P(B)⩾P(A)
5 ° P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A B ) 5\degree\quad P(A∪ B)=P(A)+P(B)-P(AB) 5°P(A∪B)=P(A)+P(B)−P(AB)
等可能概型(classical probability):若试验满足,样本空间S中样本点有限(有限性),出现每一个样本点的概率相等(等可能性),称这种试验为等可能概型(或古典概型)。
P ( A ) = k n P(A)=\dfrac{k}{n} P(A)=nk,其中k为A中所包含的样本点数,n为S中的样本点数。
几何概型(geometric probability):(将等可能的原理进一步拓广)
当样本空间 S 为 R n \R^n Rn 中的某个区域,如果没有特别的信息,则认为 R n \R^n Rn 中每一点的出现都是等可能的。因此如果事件A为S中的某个子区域,则认为A发生的概率为A与S 体积(或面积、长度)之比。
条件概率(conditional probability):设A,B为事件,P(A)>0,定义 P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)称为是A发生条件下B发生的概率
条件概率空间:原样本空间的缩减 S → A S\to A S→A
条件概率:原概率的限制 P ( ⋅ ) → P ( ⋅ ∣ A ) P(\cdot)\to P(\cdot|A) P(⋅)→P(⋅∣A)
条件概率性质: P ( ⋅ ∣ A ) P(\cdot|A) P(⋅∣A) 是概率,具有概率的所有性质
非负性: P ( B ∣ A ) ⩾ 0 P(B|A)⩾ 0 P(B∣A)⩾0
规范性: P ( S ∣ A ) = 1 P(S|A)=1 P(S∣A)=1
可列可加性: B i B j = ∅ , ( i ≠ j ) ⟹ P ( ⋃ i = 1 ∞ B i ∣ A ) = ∑ i = 1 ∞ P ( B i ∣ A ) B_iB_j=\varnothing,(i\neq j)\implies P(\displaystyle\bigcup_{i=1}^{∞}B_i|A)=\displaystyle\sum_{i=1}^{∞}P(B_i|A) BiBj=∅,(i=j)⟹P(i=1⋃∞Bi∣A)=i=1∑∞P(Bi∣A)
乘法公式
P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(AB)=P(A)P(B|A)=P(B)P(A|B) P(AB)=P(A)P(B∣A)=P(B)P(A∣B)
P ( A B C ) = P ( A ) P ( B ∣ A ) P ( C ∣ A B ) P(ABC)=P(A)P(B|A)P(C|AB) P(ABC)=P(A)P(B∣A)P(C∣AB)
P ( A 1 A 2 ⋯ A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 A 2 ) ⋯ P ( A n ∣ A 1 A 2 ⋯ A n − 1 ) P(A_1A_2\cdots A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|A_1A_2\cdots A_{n-1}) P(A1A2⋯An)=P(A1)P(A2∣A1)P(A3∣A1A2)⋯P(An∣A1A2⋯An−1)
事件独立性(independent):设A,B是两随机事件,若 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B),称事件A,B独立
A A A与 B B B独立 ⟺ A ˉ \iff \bar A ⟺Aˉ与 B B B独立 ⟺ A \iff A ⟺A与 B ˉ \bar B Bˉ独立 ⟺ A ˉ \iff \bar A ⟺Aˉ与 B ˉ \bar B Bˉ独立
事件 A , B , C 独立,指下式同时成立。若只有前三个式子成立,称为两两独立。两两独立并不能决定三个事件独立。
{ P ( A B ) = P ( A ) P ( B ) P ( B C ) = P ( C ) P ( C ) P ( A C ) = P ( A ) P ( C ) P ( A B C ) = P ( A ) P ( B ) P ( C ) \begin{cases} P(AB)=P(A)P(B) \\ P(BC)=P(C)P(C) \\ P(AC)=P(A)P(C) \\ P(ABC)=P(A)P(B)P(C) \end{cases} ⎩⎪⎪⎪⎨⎪⎪⎪⎧P(AB)=P(A)P(B)P(BC)=P(C)P(C)P(AC)=P(A)P(C)P(ABC)=P(A)P(B)P(C)
推广:事件 A 1 , A 2 , ⋯ , A n A_1,A_2,\cdots,A_n A1,A2,⋯,An 相互独立,则对 2 ⩽ k ⩽ n 2⩽ k ⩽ n 2⩽k⩽n均有
P ( A i 1 A i 2 ⋯ A i k ) = ∏ j = 1 k P ( A i j ) P(A_{i_1}A_{i_2}\cdots A_{i_k})=\displaystyle\prod_{j=1}^{k}P(A_{i_j}) P(Ai1Ai2⋯Aik)=j=1∏kP(Aij)
实际问题中,常常不是用定义去验证事件的独立性,而是由实际情形来判断其独立性.
一旦确定事件是相互独立的,在计算概率时,尽可能转化为事件的乘积进行计算
全概率公式 (complete probability formula):一个用于计算概率的公式,先化整为零,再聚零为整
设 B 1 , ⋯ , B n B_1,\cdots,B_n B1,⋯,Bn 是 S S S 的一个划分, A A A为事件,则 P ( A ) = ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P(A)=\displaystyle\sum_{i=1}^{n}P(A|B_i)P(B_i) P(A)=i=1∑nP(A∣Bi)P(Bi)称 S S S 的事件 B 1 , ⋯ , B n B_1,\cdots,B_n B1,⋯,Bn 为一个划分,指它们满足
( 1 ) ⋃ i = 1 n B i = S ( 2 ) B i B j = ∅ , ( i , j = 1 , 2 , ⋯ , n ; i ≠ j ) (1)\ \displaystyle\bigcup_{i=1}^{n}B_i=S\quad (2)\ B_iB_j=\varnothing,(i,j=1,2,\cdots,n;\ i\neq j) (1) i=1⋃nBi=S(2) BiBj=∅,(i,j=1,2,⋯,n; i=j)
贝叶斯公式(Bayes formula):全概率公式通过划分 { B i ∣ i = 1 , ⋯ , n } \{B_i |i=1,\cdots,n\} {Bi∣i=1,⋯,n} 来计算一个事件 A A A 的概率,有时候需要弄清楚在A发生的条件下,每个 B i B_i Bi 发生的条件概率
设 B 1 , ⋯ , B n B_1,\cdots,B_n B1,⋯,Bn 是 S S S 的一个划分, A A A为事件,则对于 i = 1 , ⋯ , n i=1,\cdots,n i=1,⋯,n,有 P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ i = 1 n P ( A ∣ B i ) P ( B i ) P(B_i|A)=\dfrac{P(A|B_i)P(B_i)}{\displaystyle\sum_{i=1}^{n}P(A|B_i)P(B_i)} P(Bi∣A)=i=1∑nP(A∣Bi)P(Bi)P(A∣Bi)P(Bi)
贝叶斯公式是关于随机事件 A A A和 B B B的条件概率和边缘概率的。
X X X | x 1 x 2 ⋯ x k ⋯ x_1\quad x_2 \quad \cdots\quad x_k\quad \cdots x1x2⋯xk⋯ | 随机变量的所有可能取值 |
---|---|---|
P P P | p 1 p 2 ⋯ p k ⋯ p_1\quad p_2 \quad \cdots\quad p_k\quad \cdots p1p2⋯pk⋯ | 取每个可能取值相应的概率 |
分布律满足: p k ⩾ 0 , ∑ k = 1 + ∞ p k = 1 p_k⩾ 0,\ \displaystyle\sum_{k=1}^{+∞}p_k=1 pk⩾0, k=1∑+∞pk=1
分布函数(distribution function):对于随机变量X,定义函数 F ( x ) = P { X ⩽ x } , ∀ x ∈ R F(x)=P\{X⩽ x\},∀ x\in \R F(x)=P{X⩽x},∀x∈R 称为X的累积分布函数(cumulative distribution function ,CDF) 。
任何随机变量都有相应的分布函数,分布函数可以给出随机变量落入任意一个范围的可能性。
一般地,离散型随机变量的分布函数为阶梯函数。
分布函数的基本性质:
(1) 0 ⩽ F ( x ) ⩽ 1 0⩽ F(x) ⩽ 1 0⩽F(x)⩽1
(2) F ( x ) F(x) F(x)是单调不减函数
(3) F ( − ∞ ) = lim x → − ∞ F ( x ) = 0 F ( + ∞ ) = lim x → + ∞ F ( x ) = 1 F(-∞)=\lim\limits_{x\to-∞}F(x)=0\\ F(+∞)=\lim\limits_{x\to+∞}F(x)=1 F(−∞)=x→−∞limF(x)=0F(+∞)=x→+∞limF(x)=1
(4) F ( x ) F(x) F(x)是右连续函数,即 F ( x ) = F ( x + 0 ) = lim y → x + F ( y ) F(x)=F(x+0)=\lim\limits_{y\to x^+}F(y) F(x)=F(x+0)=y→x+limF(y)
连续型随机变量(continuous random variable):设随机变量 X 的分布函数 F(x) 可表成其中 F ( x ) = ∫ − ∞ x f ( t ) d t F(x)=\int_{-∞}^{x}f(t)\mathrm{d}t F(x)=∫−∞xf(t)dt其中 f ( x ) ⩾ 0 f(x)⩾ 0 f(x)⩾0, 则称X是连续型随机变量, f ( x ) f(x) f(x) 称为是 X 的概率密度函数(probability density function ,PDF),简称概率密度。
概率密度的性质:
(1) f ( x ) ⩾ 0 f(x)⩾ 0 f(x)⩾0
(2) ∫ − ∞ + ∞ f ( t ) d t = 1 \int_{-∞}^{+∞}f(t)\mathrm{d}t=1 ∫−∞+∞f(t)dt=1
(3) ∀ x 1 < x 2 , P { x 1 < X ⩽ x 2 } = F ( X 2 ) − F ( x 1 ) = ∫ x 1 x 2 f ( t ) d t ∀ x_1
(4) 在 F ( x ) F(x) F(x)的连续点, f ( x ) = F ′ ( x ) f(x)=F'(x) f(x)=F′(x)
几种重要的连续型分布
均匀分布(uniformly):若X的概率密度函数为 f ( x ) = { 1 b − a , x ∈ [ a , b ] 0 , x ∈ ( − ∞ , a ) ∪ ( b , + ∞ ) f(x)=\begin{cases}\dfrac{1}{b-a},x\in[a,b] \\ 0,x\in(-∞,a)∪(b,+∞) \end{cases} f(x)=⎩⎨⎧b−a1,x∈[a,b]0,x∈(−∞,a)∪(b,+∞)其中 a < b aa<b,就称X服从 [ a , b ] [a,b] [a,b]上的均匀分布,记为 X ∼ U ( a , b ) X∼ U(a,b) X∼U(a,b)
分布函数为 F ( x ) = { 0 , x < a x − a b − a , x ∈ [ a , b ] 1 , x > b F(x)=\begin{cases} 0,\quad xb \end{cases} F(x)=⎩⎪⎪⎨⎪⎪⎧0,x<ab−ax−a,x∈[a,b]1,x>b
均匀分布具有等可能性:取值的概率只与小区间的长度有关,而与其位置无关。
指数分布(exponential):若X的概率密度函数为 f ( x ) = { 1 θ e − x / θ , x > 0 0 , x ⩽ 0 f(x)=\begin{cases} \frac{1}{θ}e^{-x/θ},x>0 \\ 0,\quad x⩽ 0 \end{cases} f(x)={θ1e−x/θ,x>00,x⩽0其中 θ > 0 θ>0 θ>0,就称X服从参数 θ θ θ的指数分布,记为 X ∼ E ( θ ) X∼ E(θ) X∼E(θ) 或 X ∼ E x p ( θ ) X∼ Exp(θ) X∼Exp(θ)
分布函数为 F ( x ) = { 1 − e − x / θ , x > 0 0 , x ⩽ 0 F(x)=\begin{cases} 1-e^{-x/θ},&x>0 \\ 0,&x⩽ 0 \end{cases} F(x)={1−e−x/θ,0,x>0x⩽0
指数分布具有无记忆性:对于 t 0 > 0 , t > 0 , P { X > t 0 + t ∣ X > t 0 } = P { X > t } t_0>0,t>0,P\{X>t_0+t|X>t_0\}=P\{X>t\} t0>0,t>0,P{X>t0+t∣X>t0}=P{X>t}
应用:通常用来描述生命周期;表示独立随机事件发生的时间间隔;
正态分布(normal distribution):连续型随机变量 X 如果有如下形式的概率密度函数 f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 ( μ ∈ R , σ > 0 ) f(x)=\dfrac{1}{\sqrt{2π}σ}e^{-\frac{(x-μ)^2}{2σ^2}}\quad (μ\in\R,σ>0) f(x)=2πσ1e−2σ2(x−μ)2(μ∈R,σ>0)则称 X 服从参数为 ( μ , σ 2 ) (μ,σ^2) (μ,σ2) 的正态分布 或高斯分布,记为 X ∼ N ( μ , σ 2 ) X∼ N(μ,σ^2) X∼N(μ,σ2)
特征:(1) f ( x ) f(x) f(x)关于 x = μ x=μ x=μ对称, f max = f ( μ ) = 1 2 π σ f_{\max}=f(μ)=\dfrac{1}{\sqrt{2π}σ} fmax=f(μ)=2πσ1
(2) 当 x ⩽ μ x⩽ μ x⩽μ时, f ( x ) f(x) f(x)是严格单调递增函数
(3) x = μ ± σ x=μ± σ x=μ±σ是 f ( x ) f(x) f(x)的拐点
(4) lim ∣ x − μ ∣ → + ∞ f ( x ) = 0 \lim\limits_{|x-μ|\to+∞}f(x)=0 ∣x−μ∣→+∞limf(x)=0
两个参数的含义:
(1) 当固定 σ 改变 μ 的大小时,图形的形状不变,只是沿着 x 轴作平移变换;
μ 称为位置参数,决定对称轴位置
(2) 当固定 μ 改变 σ 的大小时,图形的对称轴不变,而形状在改变, σ 越小图形越高越瘦,σ 越大图形越矮越胖;
σ 称为尺度参数,决定曲线分散程度
应用:测量值与实际值的误差;分子热运动时每个分子的运动速率;
若 X ∼ N ( μ , σ 2 ) , X X∼ N(μ,σ^2), X X∼N(μ,σ2),X的分布函数 F ( x ) = P { X ⩽ x } = ∫ − ∞ x f ( t ) d t F(x)=P\{X⩽ x\}=\int_{-∞}^{x}f(t)\mathrm{d}t F(x)=P{X⩽x}=∫−∞xf(t)dt一般无解析解。
标准正态分布(standard normal distribution):若 Z ∼ N ( 0 , 1 ) Z∼ N(0,1) Z∼N(0,1) 称 Z 服从标准正态分布
Z 的概率密度函数: ϕ ( z ) = 1 2 π e − z 2 2 ϕ(z)=\dfrac{1}{\sqrt{2π}}e^{-\frac{z^2}{2}} ϕ(z)=2π1e−2z2
Z 的分布函数: Φ ( z ) = ∫ − ∞ z 1 2 π e − t 2 2 d t Φ(z)=\int_{-∞}^{z}\dfrac{1}{\sqrt{2π}}e^{-\frac{t^2}{2}}\mathrm{d}t Φ(z)=∫−∞z2π1e−2t2dt
重要性质:关于 轴的对称 Φ ( − z 0 ) = 1 − Φ ( z 0 ) Φ(-z_0)=1-Φ(z_0) Φ(−z0)=1−Φ(z0)
当 X ∼ N ( μ , σ 2 ) X∼ N(μ,σ^2) X∼N(μ,σ2)时, X − μ σ ∼ N ( 0 , 1 ) \frac{X-μ}{σ}∼ N(0,1) σX−μ∼N(0,1),由此可知
∀ a ∈ R , F X ( a ) = P { X ⩽ a } = P { X − μ σ ⩽ a − μ σ } = Φ ( a − μ σ ) ∀ a\in\R,F_X(a)=P\{X⩽ a\}=P\{\frac{X-μ}{σ} ⩽ \frac{a-μ}{σ}\}=Φ(\frac{a-μ}{σ}) ∀a∈R,FX(a)=P{X⩽a}=P{σX−μ⩽σa−μ}=Φ(σa−μ)
常采用的3σ原则: P { ∣ X − μ ∣ ⩽ 3 σ } ≈ 0.9974 P\{|X-μ|⩽ 3σ\}\approx 0.9974 P{∣X−μ∣⩽3σ}≈0.9974
有时我们关心的随机变量不是直接观测得到的随机变量,而是它的函数。
如要得到一个圆的面积 Y,总是测量其半径,半径的测量值可看作随机变量X,若 X ∼ N ( μ , σ 2 ) X∼ N(μ,σ^2) X∼N(μ,σ2),则 Y 的分布是什么?
一般地,设 X 为一随机变量, 分布已知.。 Y = g ( X ) Y=g(X) Y=g(X), 其中 g 为一确定的实函数, 要求 Y 的分布。仍讨论离散型与连续型两种情况:
(1) 设 X 为离散型,求 Y 的分布律
先逐个算出 Y 的取值 g ( x 1 ) , g ( x 2 ) , ⋯ g(x_1), g(x_2), \cdots g(x1),g(x2),⋯, 每个 g ( x k ) g(x_k) g(xk)对应的概率为 p k p_k pk;再合并所有相同的 g ( x k ) g(x_k) g(xk), 并将对应的 p k p_k pk 相加。
(2) 设 X 为连续型随机变量, 具有概率密度 f X ( x ) f_X (x) fX(x), 又设 Y = g ( X ) Y=g(X) Y=g(X)亦为连续型随机变量,求其概率密度 f Y ( y ) f_Y(y) fY(y)
先求分布函数 F Y ( y ) = P { Y ⩽ y } = P { g ( X ) ⩽ y } = ∫ D f X ( x ) d x F_Y(y)=P\{Y⩽ y\}=P\{g(X)⩽ y\}=\int_Df_X(x)\mathrm{d}x FY(y)=P{Y⩽y}=P{g(X)⩽y}=∫DfX(x)dx,其中积分区域 D = { x ∣ g ( x ) ⩽ y } D=\{x|g(x)⩽ y \} D={x∣g(x)⩽y},然后对分布函数求导, 得到概率概率密度。
定理:设随机变量 X ∼ F X ( x ) , x ∈ R , Y = g ( X ) , g ′ ( X ) > 0 或 g ′ ( X ) < 0 X∼ F_X(x),x\in\R,\ Y=g(X),g'(X)>0或g'(X)<0 X∼FX(x),x∈R, Y=g(X),g′(X)>0或g′(X)<0,则具有概率密度为 f Y ( y ) = { f X [ h ( y ) ] ⋅ ∣ h ′ ( y ) ∣ , y ∈ [ a , b ] 0 , y ∈ ( − ∞ , a ) ∪ ( b , + ∞ ) f_Y(y)=\begin{cases} f_X[h(y)]\cdot |h'(y)|,\ y\in[a,b] \\ 0,y\in(-∞,a)∪(b,+∞) \end{cases} fY(y)={fX[h(y)]⋅∣h′(y)∣, y∈[a,b]0,y∈(−∞,a)∪(b,+∞)其中 [ a , b ] [a,b] [a,b]是 Y 的取值范围,h是g 的反函数,即 h ( y ) = x h(y)=x h(y)=x
一般地,若随机变量 X ∼ N ( μ , σ 2 ) X∼ N(μ,σ^2) X∼N(μ,σ2)
则 Y = a X + b ⟹ Y ∼ N ( a μ + b , a 2 σ 2 ) Y=aX+b\implies Y∼ N(aμ+b,a^2σ^2) Y=aX+b⟹Y∼N(aμ+b,a2σ2)
二维随机变量:设E是一个随机试验,样本空间 S = e S={e} S=e;设 X = X ( e ) X=X(e) X=X(e)和 Y = Y ( e ) Y=Y(e) Y=Y(e)是定义在S上的随机变量,由它们构成的向量 ( X , Y ) (X,Y) (X,Y)称为二维随机向量或二维随机变量。
二维随机变量分布函数:设 ( X , Y ) (X,Y) (X,Y) 是二维随机变量,对于任意 ( x , y ) ∈ R 2 (x,y)\in\R^2 (x,y)∈R2,二维函数 F ( x , y ) = P { { X ⩽ x } ∩ { Y ⩽ y } } ≜ P { X ⩽ x , Y ⩽ y } F(x,y)=P\{\{X⩽ x\}∩\{Y⩽ y\}\}\triangleq P\{X⩽ x,Y⩽ y\} F(x,y)=P{{X⩽x}∩{Y⩽y}}≜P{X⩽x,Y⩽y}称为二维随机变量的联合分布函数 ( joint distribution function,JDF)。
性质:
1。 F ( x , y ) F(x, y) F(x,y)为单调不减函数
2。 ∀ x , y , 0 ⩽ F ( x , y ) ⩽ 1 , F ( + ∞ , + ∞ ) = 1 , F ( − ∞ , y ) = F ( x , − ∞ ) = F ( − ∞ , − ∞ ) = 0 ∀ x,y,\ 0⩽ F(x, y) ⩽ 1, \\ F(+∞,+∞)=1,F(-∞,y)=F(x,-∞)=F(-∞,-∞)=0 ∀x,y, 0⩽F(x,y)⩽1,F(+∞,+∞)=1,F(−∞,y)=F(x,−∞)=F(−∞,−∞)=0
3。 F ( x , y ) F(x, y) F(x,y)关于 x , y x,y x,y右连续,即: lim ϵ → 0 + F ( x + ϵ , y ) = lim ϵ → 0 + F ( x , y + ϵ ) = F ( x , y ) \lim\limits_{ϵ\to 0^+}F(x+ϵ,y)=\lim\limits_{ϵ\to 0^+}F(x,y+ϵ)=F(x,y) ϵ→0+limF(x+ϵ,y)=ϵ→0+limF(x,y+ϵ)=F(x,y)
4。 x 1 < x 2 , y 1 < y 2 ⟹ P { x 1 < X ⩽ x 2 , y 1 < Y ⩽ y 2 } = F ( x 2 , y 2 ) − F ( x 1 , y 2 ) − F ( x 2 , y 1 ) + F ( x 1 , y 1 ) ⩾ 0 x_1
二维离散型随机变量:若二维随机变量 ( X , Y ) (X,Y) (X,Y)全部可能取到的不同值是有限对或可列无限对,则称 ( X , Y ) (X,Y) (X,Y)是二维离散型随机变量。
联合分布律:设 ( X , Y ) (X,Y) (X,Y)所有可能取值为 ( X i , Y i ) (X_i,Y_i) (Xi,Yi),称 P { X = x i , Y = y j } = p i j , i , j = 1 , 2 , ⋯ P\{X=x_i,Y=y_j\}=p_{ij},i,j=1,2,\cdots P{X=xi,Y=yj}=pij,i,j=1,2,⋯为二维离散型随机变量 ( X , Y ) (X,Y) (X,Y)的联合(概率)分布律。
联合分布律的性质: ( 1 ) 0 ⩽ p i j ⩽ 1 ; ( 2 ) ∑ i = 1 ∞ ∑ j = 1 ∞ p i j = 1 (1)\ 0 ⩽ p_{ij} ⩽ 1;\quad (2)\ \displaystyle\sum_{i=1}^{∞}\sum_{j=1}^{∞}p_{ij}=1 (1) 0⩽pij⩽1;(2) i=1∑∞j=1∑∞pij=1
二维连续型随机变量:设二维随机变量 ( X , Y ) (X, Y) (X,Y) 的分布函数 F ( x , y ) , ∃ f ( x , y ) ⩾ 0 , ∀ ( x , y ) ∈ R 2 F(x,y), ∃ f(x,y)⩾0,∀ (x,y)\in\R^2 F(x,y),∃f(x,y)⩾0,∀(x,y)∈R2有 F ( x , y ) = ∫ − ∞ x ∫ − ∞ y f ( u , v ) d u d v F(x,y)=\int_{-∞}^{x}\int_{-∞}^{y}f(u,v)\mathrm{d}u\mathrm{d}v F(x,y)=∫−∞x∫−∞yf(u,v)dudv则称 ( X , Y ) (X, Y) (X,Y) 为二维连续型随机变量, f ( x , y ) f(x,y) f(x,y) 称为是 ( X , Y ) (X, Y) (X,Y) 的联合概率密度(函数)。
概率密度的性质:
1。 f ( x , y ) ⩾ 0 f(x,y)⩾0 f(x,y)⩾0
2。 ∫ − ∞ + ∞ ∫ − ∞ + ∞ f ( x , y ) d x d y = 1 \int_{-∞}^{+∞}\int_{-∞}^{+∞}f(x,y)\mathrm{d}x\mathrm{d}y=1 ∫−∞+∞∫−∞+∞f(x,y)dxdy=1
3。在 f ( x , y ) f ( x , y ) f(x,y) 的连续点处,有 ∂ F ( x , y ) ∂ x ∂ y = f ( x , y ) \dfrac{∂ F(x,y)}{∂ x∂ y}=f(x,y) ∂x∂y∂F(x,y)=f(x,y)
4。对于任何 R 2 \R^2 R2上的区域G, 有 P { ( X , Y ) ∈ G } = ∬ G f ( u , v ) d u d v P\{(X,Y)\in G\}=\iint_G f(u,v)\mathrm{d}u\mathrm{d}v P{(X,Y)∈G}=∬Gf(u,v)dudv
边缘分布律:对分布律为 P { X = x i , Y = y j } = p i j P\{X=x_i,Y=y_j\}=p_{ij} P{X=xi,Y=yj}=pij 的二维离散型随机变量
P { X = x i } = P { X = x i , ⋃ j = 1 ∞ { Y = y j } } = ∑ j = 1 ∞ p i j ≜ p i ∙ \displaystyle P\{X=x_i\}=P\{X=x_i,\bigcup^{∞}_{j=1}\{Y=y_j\}\}=\sum_{j=1}^{∞}p_{ij}\triangleq p_{i\bullet} P{X=xi}=P{X=xi,j=1⋃∞{Y=yj}}=j=1∑∞pij≜pi∙
同理, P { Y = y j } = P { ⋃ i = 1 ∞ { X = x i } , Y = y j } = ∑ i = 1 ∞ p i j ≜ p ∙ j \displaystyle P\{Y=y_j\}=P\{\bigcup^{∞}_{i=1}\{X=x_i\},Y=y_j\}=\sum_{i=1}^{∞}p_{ij}\triangleq p_{\bullet j} P{Y=yj}=P{i=1⋃∞{X=xi},Y=yj}=i=1∑∞pij≜p∙j
X / Y y 1 y 2 ⋯ y j ⋯ P { X = x i } x 1 p 11 p 12 ⋯ p 1 j ⋯ p 1 ∙ x 2 p 21 p 22 ⋯ p 2 j ⋯ p 2 ∙ ⋮ ⋯ ⋯ ⋯ ⋮ x i p i 1 p i 2 ⋯ p i j ⋯ p i ∙ ⋮ ⋯ ⋯ ⋯ ⋮ P { Y = y j } p ∙ 1 p ∙ 2 ⋯ p ∙ j ⋯ 1 \begin{array}{c|ccccc|c} X/Y &y_1&y_2&\cdots&y_j&\cdots &P\{X=x_i\} \\ \hline x_1 &p_{11}&p_{12}&\cdots&p_{1j}&\cdots &p_{1 \bullet} \\ x_2 &p_{21}&p_{22}&\cdots&p_{2j}&\cdots &p_{2 \bullet} \\ \vdots &\cdots&&\cdots&&\cdots &\vdots \\ x_i&p_{i1}&p_{i2}&\cdots&p_{ij}&\cdots &p_{i \bullet} \\ \vdots &\cdots&&\cdots&&\cdots &\vdots \\ \hline P\{Y=y_j\} &p_{\bullet 1}&p_{\bullet 2}&\cdots&p_{\bullet j}&\cdots &1 \end{array} X/Yx1x2⋮xi⋮P{Y=yj}y1p11p21⋯pi1⋯p∙1y2p12p22pi2p∙2⋯⋯⋯⋯⋯⋯⋯yjp1jp2jpijp∙j⋯⋯⋯⋯⋯⋯⋯P{X=xi}p1∙p2∙⋮pi∙⋮1
边缘概率密度:对概率密度为 f ( x , y ) f(x,y) f(x,y)的二维连续型随机变量
f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y f Y ( y ) = ∫ − ∞ + ∞ f ( x , y ) d x f_X(x)=\int_{-∞}^{+∞}f(x,y)\mathrm{d}y\\ f_Y(y)=\int_{-∞}^{+∞}f(x,y)\mathrm{d}x fX(x)=∫−∞+∞f(x,y)dyfY(y)=∫−∞+∞f(x,y)dx
边缘分布函数:可以由 ( X , Y ) (X,Y) (X,Y)的分布函数所确定
F X ( x ) ≜ P { X ⩽ x , Y < + ∞ } = F ( x , + ∞ ) = lim y → + ∞ F ( x , y ) F_X(x)\triangleq P\{X ⩽ x,Y<+∞\}=F(x,+∞)=\lim\limits_{y\to +∞}F(x,y) FX(x)≜P{X⩽x,Y<+∞}=F(x,+∞)=y→+∞limF(x,y)
F Y ( y ) ≜ P { X < + ∞ , Y ⩽ y } = F ( + ∞ , y ) = lim x → + ∞ F ( x , y ) F_Y(y)\triangleq P\{X<+∞,Y ⩽ y\}=F(+∞,y)=\lim\limits_{x\to +∞}F(x,y) FY(y)≜P{X<+∞,Y⩽y}=F(+∞,y)=x→+∞limF(x,y)
相互独立(mutual independence): ∀ x , y , F ( x , y ) = F X ( x ) F Y ( y ) ∀ x,y,F(x,y)=F_X(x)F_Y(y) ∀x,y,F(x,y)=FX(x)FY(y)称随机变量X ,Y相互独立。
二维离散型: ⟺ p i j = p i ∙ p ∙ j \iff p_{ij}=p_{i \bullet}p_{\bullet j} ⟺pij=pi∙p∙j
二维连续型: ⟺ f ( x , y ) = f X ( x ) f Y ( y ) \iff f(x,y)=f_X(x)f_Y(y) ⟺f(x,y)=fX(x)fY(y)
条件分布(conditional distribution):对二维离散型随机变量 ( X , Y ) (X,Y) (X,Y)
P { X = x i ∣ Y = y j } = P { X = x i , Y = y j } P { Y = y j } = p i j p ∙ j P\{X=x_i|Y=y_j\}=\dfrac{P\{X=x_i,Y=y_j\}}{P\{Y=y_j\}}=\dfrac{p_{ij}}{p_{\bullet j}} P{X=xi∣Y=yj}=P{Y=yj}P{X=xi,Y=yj}=p∙jpij
同理, P { Y = y j ∣ X = x i } = P { X = x i , Y = y j } P { X = x i } = p i j p i ∙ P\{Y=y_j|X=x_i\}=\dfrac{P\{X=x_i,Y=y_j\}}{P\{X=x_i\}}=\dfrac{p_{ij}}{p_{i \bullet}} P{Y=yj∣X=xi}=P{X=xi}P{X=xi,Y=yj}=pi∙pij
条件概率密度:对二维连续型随机变量 ( X , Y ) (X,Y) (X,Y)
当 Y = y Y=y Y=y时,X的条件概率密度 f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) f_{X|Y}(x|y)=\dfrac{f(x,y)}{f_Y(y)} fX∣Y(x∣y)=fY(y)f(x,y)
同理 f Y ∣ X ( y ∣ x ) = f ( x , y ) f X ( x ) f_{Y|X}(y|x)=\dfrac{f(x,y)}{f_X(x)} fY∣X(y∣x)=fX(x)f(x,y)
条件分布函数:
F X ∣ Y ( x ∣ y ) = P { X ⩽ x ∣ Y = y } = { P { X ⩽ x , Y = y } P { Y = y } , P { Y = y } > 0 , 即 Y 为 离 散 型 随 机 变 量 lim ϵ → 0 + P { X ⩽ x , y < Y ⩽ y + ϵ } P { y < Y ⩽ y + ϵ } , P { Y = y } = 0 , 即 Y 为 连 续 型 随 机 变 量 F_{X|Y}(x|y)=P\{X⩽ x|Y=y\}= \\ \begin{cases} \dfrac{P\{X⩽ x,Y=y\}}{P\{Y=y\}}, & P\{Y=y\}>0,即Y为离散型随机变量 \\ \\ \lim\limits_{ϵ\to 0^+}\dfrac{P\{X⩽ x,y
二维均匀分布:概率密度函数 f ( x , y ) = { 1 / A , ( x , y ) ∈ D 0 , ( x , y ) ∉ D , 其 中 A 为 D 的 面 积 f(x,y)=\begin{cases} 1/A,&(x,y)\in D \\ 0,&(x,y) \not\in D \end{cases},其中A为D的面积 f(x,y)={1/A,0,(x,y)∈D(x,y)∈D,其中A为D的面积
二维正态分布:
(1) 设 Z 1 , Z 2 Z_1, Z_2 Z1,Z2 为独立同分布 N ( 0 , 1 ) N(0,1) N(0,1) 的随机变量,则 Z 1 , Z 2 Z_1, Z_2 Z1,Z2 的联合密度函数为 f ( z 1 , z 2 ) = 1 2 π e − 1 2 ( z 1 2 + z 2 2 ) f(z_1,z_2)=\frac{1}{2π}e^{-\frac{1}{2}(z_1^2+z_2^2)} f(z1,z2)=2π1e−21(z12+z22)
(2) 作变换,令 { X = σ 1 Z 1 + μ 1 Y = σ 2 ( ρ Z 1 + 1 − ρ 2 Z 2 ) + μ 2 ( σ 1 , σ 2 > 0 , ∣ ρ ∣ < 1 ) \begin{cases} X=σ_1Z_1+μ _1 \\ Y=σ_2(ρZ_1+\sqrt{1-ρ^2}Z_2)+μ _2 \end{cases}\quad (σ_1,σ_2>0,|ρ|<1) {X=σ1Z1+μ1Y=σ2(ρZ1+1−ρ2Z2)+μ2(σ1,σ2>0,∣ρ∣<1)
则称 ( X , Y ) (X ,Y) (X,Y) 服从参数为 ( μ 1 , μ 2 , σ 1 2 , σ 2 2 , ρ ) (μ _1,μ _2,σ_1^2,σ_2^2,ρ) (μ1,μ2,σ12,σ22,ρ) 的二维正态分布,记为 ( X , Y ) ∼ N ( μ 1 , μ 2 , σ 1 2 , σ 2 2 , ρ ) (X ,Y)∼ N(μ _1,μ _2,σ_1^2,σ_2^2,ρ) (X,Y)∼N(μ1,μ2,σ12,σ22,ρ)
变换可写成矩阵式: ( X Y ) = A ( Z 1 Z 2 ) + ( μ 1 μ 2 ) \begin{pmatrix} X\\ Y\end{pmatrix} =A \begin{pmatrix} Z_1\\ Z_2\end{pmatrix}+ \begin{pmatrix} μ _1\\ μ _2\end{pmatrix} (XY)=A(Z1Z2)+(μ1μ2)
其中 A = ( σ 1 0 σ 2 ρ σ 2 1 − ρ 2 ) A=\begin{pmatrix} σ_1&0\\ σ_2ρ&σ_2\sqrt{1-ρ^2}\end{pmatrix} A=(σ1σ2ρ0σ21−ρ2),于是 ( Z 1 Z 2 ) = A − 1 ( X − μ 1 Y − μ 2 ) \begin{pmatrix} Z_1\\ Z_2\end{pmatrix} =A^{-1} \begin{pmatrix} X-μ _1\\ Y-μ _2\end{pmatrix} (Z1Z2)=A−1(X−μ1Y−μ2)
将此式代入 Z 1 , Z 2 Z_1, Z_2 Z1,Z2 的联合密度式,并注意到此变换中雅可比行列式为
∣ J ∣ = det A − 1 = 1 σ 1 σ 2 1 − ρ 2 |J|=\det A^{-1}=\dfrac{1}{σ_1σ_2\sqrt{1-ρ^2}} ∣J∣=detA−1=σ1σ21−ρ21
即得 ( X , Y ) (X ,Y) (X,Y) 的联合密度 f ( x , y ) f(x,y) f(x,y) (过于复杂,就不写了!)
由定义知若 ρ = 0 ρ=0 ρ=0 , 则 X = σ 1 Z 1 + μ 1 , Y = σ 2 Z 2 + μ 2 X=σ_1Z_1+μ _1,Y=σ_2Z_2+μ _2 X=σ1Z1+μ1,Y=σ2Z2+μ2,即 X 与 Y 独立。从密度函数看,X 与Y 地位是对称的,决定了它们的分布特点是一致的.
二维正态的定义的特点使得许多分布规律的计算十分简单。
边缘概率密度:因 X = σ 1 Z 1 + μ 1 X=σ_1Z_1+μ _1 X=σ1Z1+μ1,故 X ∼ N ( μ 1 , σ 1 2 ) X∼ N(μ _1,σ_1^2) X∼N(μ1,σ12),由对称性可知 Y ∼ N ( μ 2 , σ 2 2 ) Y∼ N(μ _2,σ_2^2) Y∼N(μ2,σ22),两个边缘分布均与ρ无关
条件概率密度:由于 Z 1 = x − μ 1 σ 1 Z_1=\frac{x-μ _1}{σ_1} Z1=σ1x−μ1,故 Y ∣ X = x ∼ N ( σ 2 ρ σ 1 ( x − μ 1 ) , σ 2 2 ( 1 − ρ 2 ) ) Y|_{X=x}∼ N(\frac{σ_2ρ}{σ_1}(x-μ _1),σ_2^2(1-ρ^2)) Y∣X=x∼N(σ1σ2ρ(x−μ1),σ22(1−ρ2))
由对称性可知 X ∣ Y = y ∼ N ( σ 1 ρ σ 2 ( y − μ 2 ) , σ 1 2 ( 1 − ρ 2 ) ) X|_{Y=y}∼ N(\frac{σ_1ρ}{σ_2}(y-μ _2),σ_1^2(1-ρ^2)) X∣Y=y∼N(σ2σ1ρ(y−μ2),σ12(1−ρ2))
二维离散:设二维离散型随机变量 ( X , Y ) (X ,Y) (X,Y)具有分布律 P { X = x i , Y = y j } = p i j P\{X=x_i,Y=y_j\}=p_{ij} P{X=xi,Y=yj}=pij
(1) 若 U = u ( X , Y ) U=u(X,Y) U=u(X,Y),求 U U U的分布律
先确定 U U U的取值 u i u_i ui,再找出 P { U = u i } = P { ( X , Y ) ∈ D } P\{U=u_i\}=P\{(X,Y)\in D\} P{U=ui}=P{(X,Y)∈D}计算分布律
(2) 若 U = u ( X , Y ) , V = v ( X , Y ) U=u(X,Y),V=v(X,Y) U=u(X,Y),V=v(X,Y),求 ( U , V ) (U,V) (U,V)的分布律
先确定 ( U , V ) (U,V) (U,V)的取值 ( u i , v i ) (u_i,v_i) (ui,vi),再找出 P { U = u i , V = v i } = P { ( X , Y ) ∈ D } P\{U=u_i,V=v_i\}=P\{(X,Y)\in D\} P{U=ui,V=vi}=P{(X,Y)∈D}计算分布律
二维连续:设二维连续型随机变量 ( X , Y ) (X ,Y) (X,Y)具有概率密度 f ( x , y ) f(x,y) f(x,y)
(1) 若 Z = g ( X , Y ) Z=g(X,Y) Z=g(X,Y),求 Z Z Z的分布函数或概率密度
先求Z的分布函数 F Z ( z ) = P { Z ⩽ z } = P { g ( X , Y ) ⩽ z } = ∬ g ( x , y ) ⩽ z f ( x , y ) d x d y \displaystyle F_Z(z)=P\{Z⩽ z\}=P\{g(X,Y)⩽ z\}=\iint_{g(x,y)⩽ z}f(x,y)\mathrm{d}x\mathrm{d}y FZ(z)=P{Z⩽z}=P{g(X,Y)⩽z}=∬g(x,y)⩽zf(x,y)dxdy
再求导得到密度函数 f Z ( z ) = F Z ′ ( z ) f_Z(z)=F'_Z(z) fZ(z)=FZ′(z)
(2) 若 ( U , V ) (U,V) (U,V)为 ( X , Y ) (X,Y) (X,Y)的一个变换,并设变换的雅可比矩阵存在, 且行列式不为零,求 ( U , V ) (U,V) (U,V)的概率密度
因 ( U , V ) (U,V) (U,V)为 ( X , Y ) (X,Y) (X,Y)的一个变换,故可设 X = x ( U , V ) , Y = y ( U , V ) X=x(U,V),Y=y(U,V) X=x(U,V),Y=y(U,V)
又 ( U , V ) (U,V) (U,V)的分布函数可表为 G ( u , v ) = P { U ⩽ u , V ⩽ v } = ∬ U ⩽ u , V ⩽ v f ( x , y ) d x d y \displaystyle G(u,v)=P\{U⩽ u,V⩽ v\}=\iint_{U⩽ u,V⩽ v}f(x,y)\mathrm{d}x\mathrm{d}y G(u,v)=P{U⩽u,V⩽v}=∬U⩽u,V⩽vf(x,y)dxdy
将上述变换用于积分,即得
G ( u , v ) = ∫ − ∞ u ∫ − ∞ v f [ x ( s , t ) , y ( s , t ) ] ∣ J ( s , t ) ∣ d s d t \displaystyle G(u,v)=\int_{-∞}^{u}\int_{-∞}^{v}f[x(s,t),y(s,t)]|J(s,t)|\mathrm{d}s\mathrm{d}t G(u,v)=∫−∞u∫−∞vf[x(s,t),y(s,t)]∣J(s,t)∣dsdt
对上式求两阶偏导,即得
g ( u , v ) = ∂ 2 G ( u , v ) ∂ u ∂ v = f [ x ( s , t ) , y ( s , t ) ] ∣ J ( s , t ) ∣ g(u,v)=\dfrac{∂^2G(u,v)}{∂ u ∂ v}=f[x(s,t),y(s,t)]|J(s,t)| g(u,v)=∂u∂v∂2G(u,v)=f[x(s,t),y(s,t)]∣J(s,t)∣
连续型随机变量 Z = X + Y Z=X+Y Z=X+Y的分布
F Z ( z ) = ∫ − ∞ z f Z ( u ) d u F_Z(z)=\int_{-∞}^{z}f_Z(u)\mathrm{d}u FZ(z)=∫−∞zfZ(u)du
f Z ( z ) = ∫ − ∞ + ∞ f ( z − y , y ) d y = ∫ − ∞ + ∞ f ( x , z − x ) d x f_Z(z)=\int_{-∞}^{+∞}f(z-y,y)\mathrm{d}y=\int_{-∞}^{+∞}f(x,z-x)\mathrm{d}x fZ(z)=∫−∞+∞f(z−y,y)dy=∫−∞+∞f(x,z−x)dx
特别, 若X与Y 独立, 则有
f Z ( z ) = ∫ − ∞ + ∞ f X ( z − y ) f Y ( y ) d y = ∫ − ∞ + ∞ f Y ( z − x ) f X ( x ) d x f_Z(z)=\int_{-∞}^{+∞}f_X(z-y)f_Y(y)\mathrm{d}y=\int_{-∞}^{+∞}f_Y(z-x)f_X(x)\mathrm{d}x fZ(z)=∫−∞+∞fX(z−y)fY(y)dy=∫−∞+∞fY(z−x)fX(x)dx
称 f Z f_Z fZ 为 f X f_X fX 与 f Y f_Y fY 的卷积,记为 f Z = f X ∗ f Y f_Z=f_X * f_Y fZ=fX∗fY
对于一般的两独立正态随机变量 X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) ⟹ Z = X + Y ∼ N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) X∼ N(μ _1,σ_1^2),Y∼ N(μ _2,σ_2^2)\implies Z=X+Y∼ N(μ _1+μ _2,σ_1^2+σ_2^2) X∼N(μ1,σ12),Y∼N(μ2,σ22)⟹Z=X+Y∼N(μ1+μ2,σ12+σ22)
独立的离散型变量的和分布
(1) X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn独立且服从分布 B ( 1 , p ) B(1,p) B(1,p),则 X 1 + X 2 + ⋯ + X n ∼ B ( n , p ) X_1+X_2+\cdots+X_n∼ B(n,p) X1+X2+⋯+Xn∼B(n,p)
(2) X 1 ∼ B ( n 1 , p ) , X 2 ∼ B ( n 2 , p ) X_1∼ B(n_1,p),X_2∼ B(n_2,p) X1∼B(n1,p),X2∼B(n2,p),且两者独立,则 X 1 + X 2 ∼ B ( n 1 + n 2 , p ) X_1+X_2∼ B(n_1+n_2,p) X1+X2∼B(n1+n2,p)
(3) X 1 ∼ π ( θ 1 ) , X 2 ∼ π ( θ 2 ) X_1∼ π(θ_1),X_2∼ π(θ_2) X1∼π(θ1),X2∼π(θ2),且两者独立,则 X 1 + X 2 ∼ π ( 1 / θ 1 + 1 / θ 2 ) X_1+X_2∼ π(1/θ_1+1/θ_2) X1+X2∼π(1/θ1+1/θ2)
连续型随机变量 Z = X / Y Z=X/Y Z=X/Y的分布
f Z ( z ) = { ( 1 + z ) − 2 , z > 0 0 , z ⩽ 0 f_Z(z)=\begin{cases} (1+z)^{-2},&z>0 \\ 0,&z⩽ 0 \end{cases} fZ(z)={(1+z)−2,0,z>0z⩽0
极值分布(extreme-value distribution):设 X, Y 独立,分别有分布函数 F X ( x ) , F Y ( y ) F_X(x),F_Y(y) FX(x),FY(y)
max { X , Y } \max\{X, Y\} max{X,Y}的分布函数 F m a x ( z ) = F X ( x ) F Y ( y ) F_{max}(z)=F_X(x)F_Y(y) Fmax(z)=FX(x)FY(y)
min { X , Y } \min\{X, Y\} min{X,Y}的分布函数 F m i n ( z ) = 1 − ( 1 − F X ( x ) ) ( 1 − F Y ( y ) ) F_{min}(z)=1-(1-F_X(x))(1-F_Y(y)) Fmin(z)=1−(1−FX(x))(1−FY(y))
上述结论容易推广到 n 个随机变量:即设 X i X_i Xi 的分布函数分别为 F i ( x i ) , i = 1 , ⋯ , n F_i(x_i), i=1,\cdots,n Fi(xi),i=1,⋯,n,且相互独立。则 max { X 1 , ⋯ , X n } , min { X 1 , ⋯ , X n } \max\{X_1,\cdots,X_n\}, \min\{X_1,\cdots,X_n\} max{X1,⋯,Xn},min{X1,⋯,Xn}的分布函数:
F max ( z ) = ∏ i = 1 n F i ( z ) ; F min ( z ) = 1 − ∏ i = 1 n ( 1 − F i ( z ) ) \displaystyle F_{\max}(z)=\prod_{i=1}^{n}F_i(z); \quad F_{\min}(z)=1-\prod_{i=1}^{n}(1-F_i(z)) Fmax(z)=i=1∏nFi(z);Fmin(z)=1−i=1∏n(1−Fi(z))
数学期望(mathematical expectation):设离散型随机变量 X的分布律为 P { X = x k } = p k P\{X=x_k\}=p_k P{X=xk}=pk
事件的平均值 x ˉ = 1 n ∑ k x k n k = ∑ k x k f k \displaystyle\bar x=\frac{1}{n}\sum_kx_kn_k=\sum_kx_kf_k xˉ=n1k∑xknk=k∑xkfk,其中 f k f_k fk为事件 { X = x k } \{X=x_k\} {X=xk}发生的频率,由第一章可知当 n → ∞ , f k → p k n\to ∞,f_k\to p_k n→∞,fk→pk,因此 x ˉ \bar x xˉ的稳定值为 ∑ k x k p k \displaystyle\sum_kx_kp_k k∑xkpk,由此
若级数 E ( X ) = ∑ k = 1 ∞ x k p k E(X)=\displaystyle\sum_{k=1}^{∞}x_kp_k E(X)=k=1∑∞xkpk绝对收敛,则称 E ( X ) E(X) E(X)为随机变量 X X X的数学期望,简称期望,又称均值(mean)
连续型随机变量 X X X的密度函数为 f ( x ) f(x) f(x),期望定义为 E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)=\int_{-∞}^{+∞}xf(x)\mathrm{d}x E(X)=∫−∞+∞xf(x)dx
期望的物理意义:x 轴上一根线密度为 f(x) 的细棒的质心坐标
Y=g(X) 的数学期望
(1) 离散情形: E ( Y ) = E ( g ( X ) ) = ∑ k = 1 ∞ g ( x k ) p k E(Y)=E(g(X))=\displaystyle\sum_{k=1}^{∞}g(x_k)p_k E(Y)=E(g(X))=k=1∑∞g(xk)pk
(2) 连续情形: E ( Y ) = E ( g ( X ) ) = ∫ − ∞ + ∞ g ( x ) f ( x ) d x E(Y)=E(g(X))=\displaystyle\int_{-∞}^{+∞}g(x)f(x)\mathrm{d}x E(Y)=E(g(X))=∫−∞+∞g(x)f(x)dx
Z=h(X,Y) 的数学期望
(1) 离散情形: E ( Z ) = E ( h ( X , Y ) ) = ∑ i = 1 ∞ ∑ j = 1 ∞ h ( x i , y j ) p i j E(Z)=E(h(X,Y))=\displaystyle\sum_{i=1}^{∞}\sum_{j=1}^{∞}h(x_i,y_j)p_{ij} E(Z)=E(h(X,Y))=i=1∑∞j=1∑∞h(xi,yj)pij
(2) 连续情形: E ( Z ) = E ( h ( X , Y ) ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ h ( x , y ) f ( x , y ) d x d y E(Z)=E(h(X,Y))=\displaystyle\int_{-∞}^{+∞}\int_{-∞}^{+∞}h(x,y)f(x,y)\mathrm{d}x\mathrm{d}y E(Z)=E(h(X,Y))=∫−∞+∞∫−∞+∞h(x,y)f(x,y)dxdy
特别的, E ( X ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ x f ( x , y ) d x d y E(X)=\displaystyle\int_{-∞}^{+∞}\int_{-∞}^{+∞}xf(x,y)\mathrm{d}x\mathrm{d}y E(X)=∫−∞+∞∫−∞+∞xf(x,y)dxdy
E ( Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ y f ( x , y ) d x d y E(Y)=\displaystyle\int_{-∞}^{+∞}\int_{-∞}^{+∞}yf(x,y)\mathrm{d}x\mathrm{d}y E(Y)=∫−∞+∞∫−∞+∞yf(x,y)dxdy
期望的性质(c为常数)
(1) E ( c ) = c E(c)=c E(c)=c
(2) E ( c X ) = c E ( X ) E(cX)=cE(X) E(cX)=cE(X)
(3) E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)
(4) 设 X , Y X,Y X,Y相互独立, E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)
方差(variance):设X是一个随机变量 D ( X ) = V a r ( X ) = E [ ( X − E ( X ) ) 2 ] D(X)=Var(X)=E[(X-E(X))^2] D(X)=Var(X)=E[(X−E(X))2]叫做X的方差。将 σ ( X ) = D ( X ) σ(X)=\sqrt{D(X)} σ(X)=D(X)为 X 的标准差(standard deviation)或均方差。方差和标准差刻画了 X取值的波动性,是衡量取值分散程度的数字特征。
方差的计算
特别的,当 g ( X ) = ( X − E ( X ) ) 2 , D ( X ) = E ( g ( X ) ) g(X)=(X-E(X))^2,\ D(X)=E(g(X)) g(X)=