对于统计专业来说,书本知识总有遗忘,翻看教材又太麻烦,于是打算记下笔记与自己的一些思考,主要参考用书是茆诗松老师编写的《概率论与数理统计教程》,其他知识待后续书籍补充。
定义 2.1.1
定义在样本空间 Ω \Omega Ω 上的实值函数 X = X ( ω ) X=X(\omega) X=X(ω) 称为随机变量, 常用大写字母 X , Y , Z X, Y, Z X,Y,Z 等表示随机变量, 其取值用小写字母 x , y , z x, y, z x,y,z 等表示. 假如一个随机变量仅可能取有限个或可列个值, 则称其为离散随机变量. 假如一个随机变量的可能取值充满数轴上的一个区间 ( a , b ) (a, b) (a,b), 则称其为连续随机变量,其中 a a a 可以是 − ∞ , b -\infty, b −∞,b 可以是 ∞ \infty ∞.
定义 2.1.2
设 X X X 是一个随机变量, 对任意实数 x x x, 称
F ( x ) = P ( X ⩽ x ) F(x)=P(X \leqslant x) F(x)=P(X⩽x)
为随机变量 X X X 的分布函数. 且称 X X X 服从 F ( x ) F(x) F(x), 记为 X ∼ F ( x ) X \sim F(x) X∼F(x). 有时也可用 F x ( x ) F_x(x) Fx(x) 以表明是 X X X 的分布函数 (把 X X X 写成 F F F 的下标).
定理 2.1.1 任一分布函数 F ( x ) F(x) F(x) 都具有如下三条基本性质:
(1) 单调性 F ( x ) F(x) F(x) 是定义在整个实数轴 ( − ∞ , ∞ ) (-\infty, \infty) (−∞,∞) 上的单调非减函数, 即对任意的 x 1 < x 2 x_1x1<x2 , 有 F ( x 1 ) ⩽ F ( x 2 ) F\left(x_1\right) \leqslant F\left(x_2\right) F(x1)⩽F(x2).
(2) 有界性 对任意的 x x x, 有 0 ⩽ F ( x ) ⩽ 1 0 \leqslant F(x) \leqslant 1 0⩽F(x)⩽1, 且
F ( − ∞ ) = lim x → − ∞ F ( x ) = 0 , F ( ∞ ) = lim x → ∞ F ( x ) = 1. \begin{gathered} F(-\infty)=\lim _{x \rightarrow-\infty} F(x)=0, \\ F(\infty)=\lim _{x \rightarrow \infty} F(x)=1 . \end{gathered} F(−∞)=x→−∞limF(x)=0,F(∞)=x→∞limF(x)=1.
(3) 右连续性 F ( x ) F(x) F(x) 是 x x x 的右连续函数, 即对任意的 x 0 x_0 x0, 有
lim x → x 0 + F ( x ) = F ( x 0 ) , \lim _{x \rightarrow x_0+} F(x)=F\left(x_0\right), x→x0+limF(x)=F(x0),
即
F ( x 0 + 0 ) = F ( x 0 ) . F\left(x_0+0\right)=F\left(x_0\right) . F(x0+0)=F(x0).
对离散随机变量而言, 常用以下定义的分布列来表示其分布.
定义 2.1.3
设 X X X 是一个离散随机变量, 如果 X X X 的所有可能取值是 x 1 , x 2 x_1, x_2 x1,x2, ⋯ , x n , ⋯ \cdots, x_n, \cdots ⋯,xn,⋯, 则称 X X X 取 x i x_i xi 的概率
p i = p ( x i ) = P ( X = x i ) , i = 1 , 2 , ⋯ , n , ⋯ p_i=p\left(x_i\right)=P\left(X=x_i\right), i=1,2, \cdots, n, \cdots pi=p(xi)=P(X=xi),i=1,2,⋯,n,⋯
为 X X X 的概率分布列或简称为分布列, 记为 X ∼ { p i } X \sim\left\{p_i\right\} X∼{pi},
分布列的基本性质
(1) 非负性 p ( x i ) ⩾ 0 , i = 1 , 2 , ⋯ p\left(x_i\right) \geqslant 0, i=1,2, \cdots p(xi)⩾0,i=1,2,⋯.
(2) 正则性 ∑ i = 1 ∞ p ( x i ) = 1 \sum_{i=1}^{\infty} p\left(x_i\right)=1 ∑i=1∞p(xi)=1.
以上两条基本性质是分布列必须具有的性质,也是判别某个数列是否能成为分布列的充要条件. 由离散随机变量 X X X 的分布列很容易写出 X X X 的分布函数
F ( x ) = ∑ x i ≤ x p ( x i ) . F(x)=\sum_{x_i \le x} p\left(x_i\right) . F(x)=xi≤x∑p(xi).
定义 2.1.4 2.1 .4 2.1.4
设随机变量 X X X 的分布函数为 F ( x ) F(x) F(x), 如果存在实数轴上的一个非负可积函数 p ( x ) p(x) p(x), 使得对任意实数 x x x 有
F ( x ) = ∫ − ∞ x p ( t ) d t , F(x)=\int_{-\infty}^x p(t) \mathrm{d}t, F(x)=∫−∞xp(t)dt,
则称 p ( x ) p(x) p(x) 为 X X X 的概率密度函数, 简称为密度函数, 或称密度.
密度函数的基本性质
(1)非负性 p ( x ) ⩾ 0 p(x) \geqslant 0 p(x)⩾0.
(2)正则性 ∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty} p(x) \mathrm{d} x=1 ∫−∞∞p(x)dx=1. (含有 p ( x ) p(x) p(x) 的可积性)
以上两条基本性质是密度函数必须具有的性质, 也是确定或判别某个函数是否成为密度函数的充要条件.
除了离散分布和连续分布之外, 还有既非离㪚又非连续的分布,在此不作过多介绍。
定义 2.2.1
设离散随机变量 X X X 的分布列为
p ( x i ) = P ( X = x i ) , i = 1 , 2 , ⋯ , n , ⋯ . p\left(x_i\right)=P\left(X=x_i\right), i=1,2, \cdots, n, \cdots . p(xi)=P(X=xi),i=1,2,⋯,n,⋯.
如果
∑ i = 1 ∞ ∣ x i ∣ p ( x i ) < ∞ , \sum_{i=1}^{\infty}\left|x_i\right| p\left(x_i\right)<\infty, i=1∑∞∣xi∣p(xi)<∞,
则称
E ( X ) = ∑ i = 1 ∞ x i p ( x i ) E(X)=\sum_{i=1}^{\infty} x_i p\left(x_i\right) E(X)=i=1∑∞xip(xi)
为随机变量 X X X 的数学期望, 或称为该分布的数学期望, 简称期望或均值. 若级数 ∑ k = 1 ∞ ∣ x i ∣ p ( x k ) \sum_{k=1}^{\infty}\left|x_i\right| p\left(x_k\right) ∑k=1∞∣xi∣p(xk) 不收敛, 则称 X X X 的数学期望不存在.
以上定义中, 要求级数绝对收敛的目的在于使数学期望唯一. 因为随机变量的取值可正可负, 取值次序可先可后, 由无穷级数的理论知道, 如果此无穷级数绝对收敛, 则可保证其和不受次序变动的影响. 由于有限项的和不受次序变动的影响,故取有限个可能值的随机变量的数学期望总是存在的.
定义 2.2.2
设连续随机变量 X X X 的密度函数为 p ( x ) p(x) p(x). 如果
∫ − ∞ ∞ ∣ x ∣ p ( x ) d x < ∞ , \int_{-\infty}^{\infty}|x| p(x) \mathrm{d} x<\infty, ∫−∞∞∣x∣p(x)dx<∞,
则称
E ( X ) = ∫ − ∞ ∞ x p ( x ) d x E(X)=\int_{-\infty}^{\infty} x p(x) \mathrm{d} x E(X)=∫−∞∞xp(x)dx
为 X X X 的数学期望, 或称为该分布 p ( x ) p(x) p(x) 的数学期望, 简称期望或均值. 若 ∫ − ∞ ∞ ∣ x ∣ p ( x ) d x \int_{-\infty}^{\infty}|x| p(x) \mathrm{d} x ∫−∞∞∣x∣p(x)dx 不收敛, 则称 X X X 的数学期望不存在.
定理 2.2.1 若随机变量 X X X 的分布用分布列 p ( x i ) p\left(x_i\right) p(xi) 或用密度函数 p ( x ) p(x) p(x) 表示, 则 X X X 的某一函数 g ( X ) g(X) g(X) 的数学期望为
E [ g ( X ) ] = { ∑ i g ( x i ) p ( x i ) , 在离散场合 ∫ − ∞ ∞ g ( x ) p ( x ) d x , 在连续场合 E[g(X)]=\left\{\begin{array}{l} \sum_i g\left(x_i\right) p\left(x_i\right), \text { 在离散场合 }\\ \int_{-\infty}^{\infty} g(x) p(x) \mathrm{d} x, \text { 在连续场合 } \end{array}\right. E[g(X)]={∑ig(xi)p(xi), 在离散场合 ∫−∞∞g(x)p(x)dx, 在连续场合
现基于这个定理来证明数学期望的几个常用性质, 以下均假定所涉及的数学期望是存在的.
性质 2.2.1 若 c c c 是常数, 则 E ( c ) = c E(c)=c E(c)=c.
性质 2.2.2 对任意常数 a a a, 有
E ( a X ) = a E ( X ) . E(a X)=a E(X) . E(aX)=aE(X).
性质 2.2.3 对任意的两个函数 g 1 ( x ) g_1(x) g1(x) 和 g 2 ( x ) g_2(x) g2(x), 有
E [ g 1 ( X ) ± g 2 ( X ) ] = E [ g 1 ( X ) ] ± E [ g 2 ( X ) ] . E\left[g_1(X) \pm g_2(X)\right]=E\left[g_1(X)\right] \pm E\left[g_2(X)\right] . E[g1(X)±g2(X)]=E[g1(X)]±E[g2(X)].
定义 2.3.1
若随机变量 X 2 X^2 X2 的数学期望 E ( X 2 ) E\left(X^2\right) E(X2) 存在, 则称偏差平方 ( X − (X- (X− E X ) 2 E X)^2 EX)2 的数学期望 E ( X − E X ) 2 E(X-E X)^2 E(X−EX)2 为随机变量 X X X (或相应分布) 的方差, 记为
Var ( X ) = E ( X − E ( X ) ) 2 = { ∑ i ( x i − E ( X ) ) 2 p ( x i ) , 在离散场合, ∫ − ∞ ∞ ( x − E ( X ) ) 2 p ( x ) d x , 在连续场合. \begin{aligned} \operatorname{Var}(X) &=E(X-E(X))^2 \\ &=\left\{\begin{array}{l} \sum_i\left(x_i-E(X)\right)^2 p\left(x_i\right), \text { 在离散场合, } \\ \int_{-\infty}^{\infty}(x-E(X))^2 p(x) \mathrm{d} x, \text { 在连续场合. } \end{array}\right. \end{aligned} Var(X)=E(X−E(X))2={∑i(xi−E(X))2p(xi), 在离散场合, ∫−∞∞(x−E(X))2p(x)dx, 在连续场合.
称方差的正平方根 Var ( X ) \sqrt{\operatorname{Var}(X)} Var(X) 为随机变量 X X X (或相应分布)的标准差,记为 σ ( X ) \sigma(X) σ(X). 或 σ x \sigma_x σx.
以下均假定随机变量的方差是存在的.
性质 2.3.1 Var ( X ) = E ( X 2 ) − [ E ( X ) ] 2 \operatorname{Var}(X)=E\left(X^2\right)-[E(X)]^2 Var(X)=E(X2)−[E(X)]2.
性质 2.3.2 常数的方差为 0 , 即 Var ( c ) = 0 \operatorname{Var}(c)=0 Var(c)=0, 其中 c c c 是常数.
性质 2.3.3 若 a , b a, b a,b 是常数, 则 Var ( a X + b ) = a 2 Var ( X ) \operatorname{Var}(a X+b)=a^2 \operatorname{Var}(X) Var(aX+b)=a2Var(X).
定理 2.3.1(切比雪夫(Chebyshev, 1821-1894)不等式)
设随机变量 X X X 的数学期望和方差都存在, 则对任意常数 ε > 0 \varepsilon>0 ε>0, 有
P ( ∣ X − E X ∣ ⩾ ε ) ⩽ Var ( X ) ε 2 , P(|X-E X| \geqslant \varepsilon) \leqslant \frac{\operatorname{Var}(X)}{\varepsilon^2}, P(∣X−EX∣⩾ε)⩽ε2Var(X),
或
P ( ∣ X − E X ∣ < ε ) ⩾ 1 − Var ( X ) ε 2 . P(|X-E X|<\varepsilon) \geqslant 1-\frac{\operatorname{Var}(X)}{\varepsilon^2} . P(∣X−EX∣<ε)⩾1−ε2Var(X).
在概率论中, 事件 {| X − E ( X ) ∣ ⩾ ε } X-E(X)|\geqslant \varepsilon\} X−E(X)∣⩾ε} 称为大偏差, 其概率 P ( ∣ X − E ( X ) ∣ ⩾ ε ) P(|X-E(X)| \geqslant \varepsilon) P(∣X−E(X)∣⩾ε) 称为大偏差发生概率.
定理 2.3.2 若随机变量 X X X 的方差存在, 则 Var ( X ) = 0 \operatorname{Var}(X)=0 Var(X)=0 的充要条件是 X X X 几乎处处为某个常数 a, 即 P(X=a)=1.(利用切比雪夫不等式)
一、二项分布
如果记 X X X 为 n n n 重伯努利试验中成功 (记为事件 A A A ) 的次数, 则 X X X 的可能取值 为 0 , 1 , ⋯ , n 0,1, \cdots, n 0,1,⋯,n. 记 p p p 为每次试验中 A A A 发生的概率, 即 P ( A ) = p P(A)=p P(A)=p, 则 P ( A ˉ ) = 1 − p P(\bar{A})=1-p P(Aˉ)=1−p.
因为 n n n 重伯努利试验的基本结果可以记作
ω = ( ω 1 , ω 2 , ⋯ , ω n ) , \omega=\left(\omega_1, \omega_2, \cdots, \omega_n\right) \text {, } ω=(ω1,ω2,⋯,ωn),
其中 ω i \omega_i ωi 或者为 A A A, 或者为 A ˉ \bar{A} Aˉ. 这样的 ω \omega ω 共有 2 n 2^n 2n 个, 这 2 n 2^n 2n 个样本点 ω \omega ω 组成了样本空间 Ω \Omega Ω.
下面求 X X X 的分布列, 即求事件 { X = k } \{X=k\} {X=k} 的概率. 若某个样本点
ω = ( ω 1 , ω 2 , ⋯ , ω n ) ∈ ∣ X = k ∣ \omega=\left(\omega_1, \omega_2, \cdots, \omega_n\right) \in|X=k| ω=(ω1,ω2,⋯,ωn)∈∣X=k∣
意味着 ω 1 , ω 2 , ⋯ , ω n \omega_1, \omega_2, \cdots, \omega_n ω1,ω2,⋯,ωn 中有 k k k 个 A , n − k A, n-k A,n−k 个 A ˉ \bar{A} Aˉ, 所以由独立性知,
P ( ω ) = p k ( 1 − p ) n − k . P(\omega)=p^k(1-p)^{n-k} \text {. } P(ω)=pk(1−p)n−k.
而事件 ∣ X = k ∣ |X=k| ∣X=k∣ 中这样的 ω \omega ω 共有 ( n k ) \left(\begin{array}{l}n \\ k\end{array}\right) (nk) 个, 所以 X X X 的分布列为
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k , k = 0 , 1 , ⋯ , n . P(X=k)=\left(\begin{array}{l} n \\k \end{array}\right) p^k(1-p)^{n-k}, k=0,1, \cdots, n . P(X=k)=(nk)pk(1−p)n−k,k=0,1,⋯,n.
这个分布称为二项分布, 记为 X ∼ b ( n , p ) X \sim b(n, p) X∼b(n,p).
二、二点分布
n = 1 n=1 n=1 时的二项分布 b ( 1 , p ) b(1, p) b(1,p) 称为二点分布, 或称 0 − 1 0-1 0−1 分布, 或称伯努利分布, 其分布列为
P ( X = x ) = p x ( 1 − p ) 1 − x , x = 0 , 1. P(X=x)=p^x(1-p)^{1-x}, x=0,1 . P(X=x)=px(1−p)1−x,x=0,1.
二点分布 b ( 1 , p ) b(1, p) b(1,p) 主要用来描述一次伯努利试验中成功 (记为 A ) A) A) 的次数 ( 0 (0 (0 或 1).
很多随机现象的样本空间 Ω \Omega Ω 常可一分为二, 记为 A A A 与 A ˉ \bar{A} Aˉ, 由此形成伯努利试验. n n n 重伯努利试验是由 n n n 个相同的,独立进行的伯努利试验组成, 若将第 i i i 个伯 努利试验中 A A A 出现的次数记为 X i ( i = 1 , 2 , ⋯ , n ) X_i(i=1,2, \cdots, n) Xi(i=1,2,⋯,n), 则 X i X_i Xi 相互独立, 且服从相同 的二点分布 b ( 1 , p ) b(1, p) b(1,p). 此时其和
X = X 1 + X 2 + ⋯ + X n X=X_1+X_2+\cdots+X_n X=X1+X2+⋯+Xn
就是 n n n 重伯努利试验中 A A A 出现的总次数, 它服从二项分布 b ( n , p ) b(n, p) b(n,p). 这就是二项分布 b ( n , p ) b(n, p) b(n,p) 与二点分布 b ( 1 , p ) b(1, p) b(1,p) 之问的联系, 即服从二项分布的随机变量是 n n n 个独立同为二点分布的随机变量之和.
三、二项分布的数学期望和方差
设随机变量 X ∼ b ( n , p ) X \sim b(n, p) X∼b(n,p), 则
E ( X ) = ∑ k = 0 n k ( n k ) p k ( 1 − p ) k − t = n p . \begin{aligned} E(X) &=\sum_{k=0}^n k\left(\begin{array}{l} n \\ k \end{array}\right) p^k(1-p)^{k-t}=n p . \end{aligned} E(X)=k=0∑nk(nk)pk(1−p)k−t=np.
X X X 的方差为
Var ( X ) = E ( X 2 ) − ( E ( X ) ) 2 = n ( n − 1 ) p 2 + n p − ( n p ) 2 = n p ( 1 − p ) . \operatorname{Var}(X)=E\left(X^2\right)-(E(X))^2=n(n-1) p^2+n p-(n p)^2=n p(1-p) . Var(X)=E(X2)−(E(X))2=n(n−1)p2+np−(np)2=np(1−p).
因为二点分布是 n = 1 n=1 n=1 时的二项分布 b ( 1 , p ) b(1, p) b(1,p), 所以二点分布的数学期望为 p p p,方差为 p ( 1 − p ) p(1-p) p(1−p).
一、泊松分布
泊松分布是 1837 年由法国数学家泊松 (Poisson, 1781-1840) 首次提出的. 泊松分布的概率分布列是
P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , 2 , ⋯ , P(X=k)=\frac{\lambda^k}{k !} \mathrm{e}^{-\lambda}, k=0,1,2, \cdots, P(X=k)=k!λke−λ,k=0,1,2,⋯,
其中参数 λ > 0 \lambda>0 λ>0, 记为 X ∼ P ( λ ) X \sim P(\lambda) X∼P(λ).
二、泊松分布的数学期望和方差
设随机变量 X ∼ P ( λ ) X \sim P(\lambda) X∼P(λ), 则
E ( X ) = ∑ k = 0 ∞ k λ λ k ! e − λ = λ e − λ ∑ k = 1 ∞ λ i − 1 ( k − 1 ) ! = λ e − λ e λ = λ . E(X)=\sum_{k=0}^{\infty} k \frac{\lambda^\lambda}{k !} \mathrm{e}^{-\lambda}=\lambda \mathrm{e}^{-\lambda} \sum_{k=1}^{\infty} \frac{\lambda^{i-1}}{(k-1) !}=\lambda \mathrm{e}^{-\lambda} \mathrm{e}^\lambda=\lambda . E(X)=k=0∑∞kk!λλe−λ=λe−λk=1∑∞(k−1)!λi−1=λe−λeλ=λ.
这表明:泊松分布 P ( λ ) P(\lambda) P(λ) 的数学期望就是参数 λ \lambda λ.
Var ( X ) = E ( X 2 ) − ( E ( X ) ) 2 = λ 2 + λ − λ 2 = λ . \operatorname{Var}(X)=E\left(X^2\right)-(E(X))^2=\lambda^2+\lambda-\lambda^2=\lambda . Var(X)=E(X2)−(E(X))2=λ2+λ−λ2=λ.
也就是说,泊松分布 P ( λ ) P(\lambda) P(λ) 中的参数 λ \lambda λ 既是数学期望又是方差.
三、二项分布的泊松近似
泊松分布还有一个非常实用的特性,即可以用泊松分布作为二项分布的一 种近似. 在二项分布 b ( n , p ) b(n, p) b(n,p) 中, 当 n n n 较大时,计算量是令人烦恼的. 而在 p p p 较小时使用以下的泊松定理,可以减少二项分布中的计算量.
定理 2.4.1 (泊松定理) 在 n n n 重伯努利试验中, 记事件 A A A 在一次试验中发生的概率为 p n p_n pn (与试验次数 n n n 有关), 如果当 n → ∞ n \rightarrow \infty n→∞ 时, 有 n p n → λ n p_n \rightarrow \lambda npn→λ, 则
lim n → ∞ ( n k ) p n k ( 1 − p n ) n − k = λ k k ! e − λ . \lim _{n \rightarrow \infty}\left(\begin{array}{l} n \\ k \end{array}\right) p_n^k\left(1-p_n\right)^{n-k}=\frac{\lambda^k}{k !} \mathrm{e}^{-\lambda} \text {. } n→∞lim(nk)pnk(1−pn)n−k=k!λke−λ.
由于泊松定理是在 n p n → λ n p_n \rightarrow \lambda npn→λ 条件下获得的, 故在计算二项分布 b ( n , p ) b(n, p) b(n,p) 时, 当 n n n 很大, p p p 很小, 而乘积 λ = n p \lambda=n p λ=np 大小适中时, 可以用泊松分布作近似, 即
( n k ) p n k ( 1 − p n ) n − k ≈ ( n p ) k k ! e − n p , k = 0 , 1 , 2 , ⋯ . \left(\begin{array}{l} n \\ k \end{array}\right) p_n^k\left(1-p_n\right)^{n-k} \approx \frac{(n p)^k}{k !} \mathrm{e}^{-n p}, k=0,1,2, \cdots . (nk)pnk(1−pn)n−k≈k!(np)ke−np,k=0,1,2,⋯.
一、超几何分布
从一个有限总体中进行不放回抽样常会遇到超几何分布.
设有 N N N 件产品, 其中有 M M M 件不合格品. 若从中不放回地随机抽取 n n n 件, 则其中含有的不合格品的件数 X X X 服从超几何分布, 记为 X ∼ h ( n , N , M ) X \sim h(n, N, M) X∼h(n,N,M). 超几何分布的概率分布列为
P ( X = k ) = ( M k ) ( N − M n − k ) ( N n ) , k = 0 , 1 , ⋯ , r . P(X=k)=\frac{\left(\begin{array}{l} M \\ k \end{array}\right)\left(\begin{array}{l} N-M \\ n-k \end{array}\right)}{\left(\begin{array}{l} N \\ n \end{array}\right)}, k=0,1, \cdots, r . P(X=k)=(Nn)(Mk)(N−Mn−k),k=0,1,⋯,r.
其中 r = min { M , n } r=\min \{ M, n\} r=min{M,n}, 且 M ⩽ N , n ⩽ N , n , N , M M \leqslant N, n \leqslant N, n, N, M M⩽N,n⩽N,n,N,M 均为正整数.
超几何分布是一种常用的离散分布, 它在抽样理论中占有重要地位.
二、超几何分布的数学期望和方差
若 X ∼ h ( n , N , M ) X \sim h(n, N, M) X∼h(n,N,M), 则 X X X 的数学期望为
E ( X ) = ∑ k = 0 r k ( M k ) ( N − M n − k ) ( N n ) = n M N . E(X)=\sum_{k=0}^{r} k \frac{\left(\begin{array}{c} M \\ k \end{array}\right)\left(\begin{array}{c} N-M \\ n-k \end{array}\right)}{\left(\begin{array}{l} N \\ n \end{array}\right)}=n \frac{M}{N} . E(X)=k=0∑rk(Nn)(Mk)(N−Mn−k)=nNM.
X X X 的方差为
Var ( X ) = E ( X 2 ) − [ E ( X ) ] 2 = n M ( N − M ) ( N − n ) N 2 ( N − 1 ) . \operatorname{Var}(X)=E\left(X^2\right)-[E(X)]^2=\frac{n M(N-M)(N-n)}{N^2(N-1)} . Var(X)=E(X2)−[E(X)]2=N2(N−1)nM(N−M)(N−n).
三、超几何分布的二项近似
当 n ≪ N n \ll N n≪N 时, 即抽取个数 n n n 远小于产品总数 N N N 时, 每次抽取后, 总体中的不合格品率 p = M / N p=M / N p=M/N 改变甚微, 所以不放回抽样可近似地看成放回抽样, 这时超几 何分布可用二项分布近似:
( M k ) ( N − M n − k ) ( N n ) ≅ ( n k ) p k ( 1 − p ) n − k , 其中 p = M N . \frac{\left(\begin{array}{l} M \\ k \end{array}\right)\left(\begin{array}{l} N-M \\ n-k \end{array}\right)}{\left(\begin{array}{l} N \\ n \end{array}\right)} \cong\left(\begin{array}{l} n \\ k \end{array}\right) p^k(1-p)^{n-k} \text {, 其中 } p=\frac{M}{N} \text {. } (Nn)(Mk)(N−Mn−k)≅(nk)pk(1−p)n−k, 其中 p=NM.
一、几何分布
在伯努利试验序列中, 记每次试验中事件 A A A 发生的概率为 p p p, 如果 X X X 为事件 A A A 首次出现时的试验次数, 则 X X X 的可能取值为 1 , 2 , ⋯ 1,2, \cdots 1,2,⋯, 称 X X X 服从几何分布, 记为 X ∼ G e ( p ) X \sim G e(p) X∼Ge(p), 其分布列为
P ( X = k ) = ( 1 − p ) k − 1 p , k = 1 , 2 , ⋯ . P(X=k)=(1-p)^{k-1} p, k=1,2, \cdots . P(X=k)=(1−p)k−1p,k=1,2,⋯.
二、几何分布的数学期望和方差
设随机变量 X X X 服从几何分布 G e ( p ) G e(p) Ge(p), 令 q = 1 − p q=1-p q=1−p, 利用逐项微分可得 X X X 的数学期望为
E ( X ) = ∑ k = 1 ∞ k p q k − 1 = p ∑ k = 1 ∞ k q k − 1 = p ∑ k = 1 ∞ d q k d q = p d d q ( ∑ k = 0 ∞ q k ) = p d d q ( 1 1 − q ) = p ( 1 − q ) 2 = 1 p . \begin{aligned} E(X) &=\sum_{k=1}^{\infty} k p q^{k-1}=p \sum_{k=1}^{\infty} k q^{k-1}=p \sum_{k=1}^{\infty} \frac{\mathrm{d} q^k}{\mathrm{~d} q} \\ &=p \frac{\mathrm{d}}{\mathrm{d} q}\left(\sum_{k=0}^{\infty} q^k\right)=p \frac{\mathrm{d}}{\mathrm{d} q}\left(\frac{1}{1-q}\right)=\frac{p}{(1-q)^2}=\frac{1}{p} . \end{aligned} E(X)=k=1∑∞kpqk−1=pk=1∑∞kqk−1=pk=1∑∞ dqdqk=pdqd(k=0∑∞qk)=pdqd(1−q1)=(1−q)2p=p1.
X X X 的方差为
Var ( X ) = E ( X 2 ) − [ E ( X ) ] 2 = 2 q p 2 + 1 p − 1 p 2 = 1 − p p 2 . \operatorname{Var}(X)=E\left(X^2\right)-[E(X)]^2=\frac{2 q}{p^2}+\frac{1}{p}-\frac{1}{p^2}=\frac{1-p}{p^2} . Var(X)=E(X2)−[E(X)]2=p22q+p1−p21=p21−p.
从几何分布的数学期望可以看出: 投一颗骰子, 首次出现点数 6 的平均投掷次数为 6 次.
三、几何分布的无记忆性
定理 2.4.2(几何分布的无记忆性) 设 X ∼ G e ( p ) X \sim G e(p) X∼Ge(p), 则对任意正整数 m m m 与 n n n 有
P ( X > m + n ∣ X > m ) = P ( X > n ) . P(X>m+n \mid X>m)=P(X>n) . P(X>m+n∣X>m)=P(X>n).
这个定理表明: 在前 m m m 次试验中 A A A 没有出现的条件下, 则在接下去的 n n n 次试验中 A A A 仍末出现的概率只与 n n n 青关, 而与以前的 m m m 次试验无关, 似乎忘记了前 m m m 次试 验结果, 这就是无记忆性.
四、负二项分布
作为几何分布的一种延伸,我们注意下面的负二项分布,亦称巴斯卡分布:
在伯努利试验序列中, 记每次试验中事件 A A A 发生的概率为 p p p, 如果 X X X 为事件 A A A 第 r r r 次出现时的试验次数, 则 X X X 的可能取值为 r , r + 1 , ⋯ , r + m , ⋯ r, r+1, \cdots, r+m, \cdots r,r+1,⋯,r+m,⋯. 称 X X X 服从负二项分布或巴斯卡分布,其分布列为
P ( X = k ) = ( k − 1 r − 1 ) p ( 1 − p ) k − r , k = r , r + 1 , ⋯ . P(X=k)=\left(\begin{array}{l} k-1 \\ r-1 \end{array}\right) p^{}(1-p)^{k-r}, k=r, r+1, \cdots . P(X=k)=(k−1r−1)p(1−p)k−r,k=r,r+1,⋯.
记为 X ∼ N b ( r , p ) X \sim N b(r, p) X∼Nb(r,p). 当 r = 1 r=1 r=1 时, 即为几何分布.
这是因为在 k k k 次伯努利试验中, 最后一次一定是 A A A, 而前 k − 1 k-1 k−1 次中 A A A 应出现 r − 1 r-1 r−1 次, 由二项分布知其概率为 ( k − 1 r − 1 ) p r − 1 ( 1 − p ) k − r \left(\begin{array}{c}k-1 \\ r-1\end{array}\right) p^{r-1}(1-p)^{k-r} (k−1r−1)pr−1(1−p)k−r, 再乘以最后一次出现 A A A 的概率 p p p, 即得.
可以算得负二项分布的数学期望为 r / p r / p r/p, 方差为 r ( 1 − p ) / p 2 r(1-p) / p^2 r(1−p)/p2. 从直观上看这 是合理的, 因为首次出现 A A A 的平均试验次数是 1 / p 1 / p 1/p, 那么第 r r r 个 A A A 出现所需的平 均试验次数是 r / p r / p r/p.
如果将第一个 A A A 出现的试验次数记为 X 1 X_1 X1, 第二个 A A A 出现的试验次数(从第 一个 A A A 出现之后算起) 记为 X 2 , ⋯ X_2, \cdots X2,⋯, 第 r r r 个 A A A 出现的试验次数(从第 r − 1 r-1 r−1 个 A A A 出 现之后算起) 记为 X , X_{,} X,, 见下图 。
A ˉ A ˉ ⋯ A ˉ A ⏟ X 1 A ˉ A ˉ ⋯ A ˉ A ⏟ X 2 ⋯ A ˉ A ˉ ⋯ A ˉ A ⏟ X r \underbrace{\bar{A} \bar{A} \cdots \bar{A} A}_{X_1} \underbrace{\bar{A} \bar{A} \cdots \bar{A} A}_{X_2} \cdots \underbrace{\bar{A} \bar{A} \cdots \bar{A} A}_{X_r} X1 AˉAˉ⋯AˉAX2 AˉAˉ⋯AˉA⋯Xr AˉAˉ⋯AˉA
则 X i X_i Xi 独立同分布, 且 X i ∼ G e ( p ) X_i \sim G e(p) Xi∼Ge(p). 此时有 X = X 1 + X 2 + ⋯ + X r ∼ N b ( r , p ) X=X_1+X_2+\cdots+X_{r}\sim N b(r, p) X=X1+X2+⋯+Xr∼Nb(r,p) 布的随机变量可以表示成 r r r 个独立同分布的几何分布随机变量之和.
一、正态分布的密度函数和分布函数
若随机变量 X X X 的密度函数为
p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < x < ∞ , p(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^2}{2 \sigma^2}},-\infty
则称 X X X 服从正态分布, 称 X X X 为正态变量, 记作 X ∼ N ( μ , σ 2 ) X \sim N\left(\mu, \sigma^2\right) X∼N(μ,σ2). 其中参数 − ∞ < μ < ∞ -\infty<\mu<\infty −∞<μ<∞, σ > 0 \sigma>0 σ>0. p ( x ) p(x) p(x) 是一条钟形曲线, 中间高、两边低、左右关于 μ \mu μ 对称, μ \mu μ 是正态分布的中心, 且在 x = μ x=\mu x=μ 附近取值的可能性大, 在两侧取值的可能性小. μ ± σ \mu \pm \sigma μ±σ 是该曲线的拐点.
二、标准正态分布
称 μ = 0 , σ = 1 \mu=0, \sigma=1 μ=0,σ=1 时的正态分布 N ( 0 , 1 ) N(0,1) N(0,1) 为标准正态分布.
三、正态变量的标准化
正态分布有一个家族
P = ∣ N ( μ , σ 2 ) : − ∞ < μ < ∞ , σ > 0 } , \left.\mathscr{P}=\mid N\left(\mu, \sigma^2\right):-\infty<\mu<\infty, \sigma>0\right\} \text {, } P=∣N(μ,σ2):−∞<μ<∞,σ>0},
以下定理说明:对一般正态分布都可以通过一个线性变换 (标准化)化成标准正态分布. 因此与正态变量有关的一切事件的概率都可通过查标准正态分布函数表获得. 由此可见标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1) 对一般正态分布 N ( μ , σ 2 ) N\left(\mu, \sigma^2\right) N(μ,σ2) 的 计算起着关键的作用.
定理 2.5.1 若随机变量 X ∼ N ( μ , σ 2 ) X \sim N\left(\mu, \sigma^2\right) X∼N(μ,σ2), 则 U = ( X − μ ) / σ ∼ N ( 0 , 1 ) U=(X-\mu) / \sigma \sim N(0,1) U=(X−μ)/σ∼N(0,1).
四、正态分布的数学期望与方差
正态分布 N ( μ , σ 2 ) N\left(\mu, \sigma^2\right) N(μ,σ2) 中的 μ \mu μ 为数学期望,而另一个参数 σ 2 \sigma^2 σ2 就是 X X X 的方差.
在求正态分布的数学期望和方差中, 用到了一种变换: 令 U = ( X − μ ) / σ U=(X-\mu) / \sigma U=(X−μ)/σ, 由 E ( U ) = 0 , Var ( U ) = 1 E(U)=0, \operatorname{Var}(U)=1 E(U)=0,Var(U)=1, 然后再去求出 X X X 的数学期望和方差. 这个变换具有普遍意义, 也就是对任意随机变量 X X X, 如果 X X X 的数学期望为 μ \mu μ, 方差为 σ 2 \sigma^2 σ2, 则称
X ∗ = X − μ σ X^*=\frac{X-\mu}{\sigma} X∗=σX−μ
为 X X X 的标准化随机变量, 且可得
E ( X ∗ ) = 0 , Var ( X ∗ ) = 1. E\left(X^*\right)=0, \quad \operatorname{Var}\left(X^*\right)=1 . E(X∗)=0,Var(X∗)=1.
五、正态分布的 3 σ 3 \sigma 3σ 原则
尽管正态变是的取值范围是 ( − ∞ , ∞ ) (-\infty, \infty) (−∞,∞), 但它的 99.73 % 99.73 \% 99.73% 的值落在 ( μ − 3 σ , μ + 3 σ ) (\mu-3 \sigma, \mu+3 \sigma) (μ−3σ,μ+3σ) 内.
一、均匀分布的密度函数和分布函数
若随机变量 X X X 的密度函数为
p ( x ) = { 1 b − a , a < x < b , 0 , 其他. p(x)= \begin{cases}\frac{1}{b-a}, & a
则称 X X X 服从区间 ( a , b ) (a, b) (a,b) 上的均匀分布, 记作 X ∼ U ( a , b ) X \sim U(a, b) X∼U(a,b), 其分布函数为
F ( x ) = { 0 , x < a , x − a b − a , a ⩽ x < b , 1 , x ⩾ b . F(x)= \begin{cases}0, & xF(x)=⎩⎪⎨⎪⎧0,b−ax−a,1,x<a,a⩽x<b,x⩾b.
二、均匀分布的数学期望和方差
设随机变量 X ∼ U ( a , b ) X \sim U(a, b) X∼U(a,b), 则
E ( X ) = ∫ a b x b − a d x = b 2 − a 2 2 ( b − a ) = a + b 2 , E(X)=\int_a^b \frac{x}{b-a} \mathrm{~d} x=\frac{b^2-a^2}{2(b-a)}=\frac{a+b}{2}, E(X)=∫abb−ax dx=2(b−a)b2−a2=2a+b,
这正是区间 ( a , b ) (a, b) (a,b) 的中点.
X X X 的方差为
Var ( X ) = E ( X 2 ) − [ E ( X ) ] 2 = a 2 + a b + b 2 3 − ( a + b ) 2 4 = ( b − a ) 2 12 . \operatorname{Var}(X)=E\left(X^2\right)-[E(X)]^2=\frac{a^2+a b+b^2}{3}-\frac{(a+b)^2}{4}=\frac{(b-a)^2}{12} . Var(X)=E(X2)−[E(X)]2=3a2+ab+b2−4(a+b)2=12(b−a)2.
一、指数分布的密度函数和分布函数
若随机变量 X X X 的密度函数为
p ( x ) = { λ e − λ x , x ⩾ 0 , 0 , x < 0 , p(x)=\left\{\begin{array}{cc} \lambda \mathrm{e}^{-\lambda x}, & x \geqslant 0, \\ 0, & x<0, \end{array}\right. p(x)={λe−λx,0,x⩾0,x<0,
则称 X X X 服从指数分布, 记作 X ∼ Exp ( λ ) X \sim \operatorname{Exp}(\lambda) X∼Exp(λ), 其中参数 λ > 0 \lambda>0 λ>0. 指数分布的分布函数为
X X X 服从指数分布, 记作 X ∼ E x X \sim E x X∼Ex 参数 λ > 0 \lambda>0 λ>0. 指数分布的分布函数为
F ( x ) = { 1 − e − λ x , x ⩾ 0 , 0 , x < 0. F(x)=\left\{\begin{array}{cl} 1-\mathrm{e}^{-\lambda x}, & x \geqslant 0, \\ 0, & x<0 . \end{array}\right. F(x)={1−e−λx,0,x⩾0,x<0.
二、指数分布的数学期望和方差
设随机变量 X ∼ Exp ( λ ) X \sim \operatorname{Exp}(\lambda) X∼Exp(λ), 则
E ( X ) = ∫ 0 ∞ x λ e − λ x d x = ∫ 0 ∞ x d ( − e − λ x ) = − x e − λ x ∣ 0 ∞ + ∫ 0 ∞ e − λ x d x = − 1 λ e − λ x ∣ 0 ∞ = 1 λ . \begin{aligned} E(X) &=\int_0^{\infty} x \lambda \mathrm{e}^{-\lambda x} \mathrm{~d} x=\int_0^{\infty} x \mathrm{~d}\left(-\mathrm{e}^{-\lambda x}\right) \\ &=-\left.x \mathrm{e}^{-\lambda x}\right|_0 ^{\infty}+\int_0^{\infty} \mathrm{e}^{-\lambda x} \mathrm{~d} x=-\left.\frac{1}{\lambda} \mathrm{e}^{-\lambda x}\right|_0 ^{\infty}=\frac{1}{\lambda} . \end{aligned} E(X)=∫0∞xλe−λx dx=∫0∞x d(−e−λx)=−xe−λx∣∣0∞+∫0∞e−λx dx=−λ1e−λx∣∣∣∣0∞=λ1.
X X X 的方差为
Var ( X ) = E ( X 2 ) − [ E ( X ) ] 2 = 2 λ 2 − 1 λ 2 = 1 λ 2 . \operatorname{Var}(X)=E\left(X^2\right)-[E(X)]^2=\frac{2}{\lambda^2}-\frac{1}{\lambda^2}=\frac{1}{\lambda^2} . Var(X)=E(X2)−[E(X)]2=λ22−λ21=λ21.
三、指数分布的无记忆性
定理 2.5.2(指数分布的无记忆性) 如果随机变量 X ∼ Exp ( λ ) X \sim \operatorname{Exp}(\lambda) X∼Exp(λ), 则对任意 s > 0 , t > 0 s>0, t>0 s>0,t>0, 有
P ( X > s + t ∣ X > s ) = P ( X > t ) . P(X>s+t \mid X>s)=P(X>t) . P(X>s+t∣X>s)=P(X>t).
上式的意义为: 记 X X X 是某种产品的使用寿命 ( h ) \mathrm{h}) h), 若 X X X 服从指数分布, 那么 已知此产品使用了s ( h ) (\mathrm{h}) (h) 没发生故障, 则再能使用 t ( h ) t(\mathrm{~h}) t( h) 而不发生故障的概率与已使用的 s ( h ) s(\mathrm{~h}) s( h) 无关, 只相当于重新开始使用 t ( h ) t(\mathrm{~h}) t( h) 的概率, 即对已使用过的 s ( h ) s(\mathrm{~h}) s( h) 没有记忆.
指数分布的无记忆性与几何分布的无记忆性是类似的.
一、伽玛函数
称以下函数
Γ ( α ) = ∫ 0 ∞ x α − 1 e − x d x \Gamma(\alpha)=\int_0^{\infty} x^{\alpha-1} \mathrm{e}^{-x} \mathrm{~d} x Γ(α)=∫0∞xα−1e−x dx
为伽玛函数, 其中参数 α > 0 \alpha>0 α>0. 伽玛函数具有如下性质:
(1) Γ ( 1 ) = 1 , Γ ( 1 2 ) = π \Gamma(1)=1, \Gamma\left(\frac{1}{2}\right)=\sqrt{\pi} Γ(1)=1,Γ(21)=π.
(2) Γ ( α + 1 ) = α Γ ( α ) \Gamma(\alpha+1)=\alpha \Gamma(\alpha) Γ(α+1)=αΓ(α) (可用分部积分法证得). 当 α \alpha α 为自然数 n n n 时, 有 Γ ( n + 1 ) = n Γ ( n ) = n ! \Gamma(n+1)=n \Gamma(n)=n ! Γ(n+1)=nΓ(n)=n!.
二、伽玛分布
若随机变量 X X X 的密度函数为
p ( x ) = { λ α Γ ( α ) x α − 1 e − λ x , x ⩾ 0 , 0 , x < 0 , p(x)= \begin{cases}\frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1} \mathrm{e}^{-\lambda x}, & x \geqslant 0, \\ 0, & x<0,\end{cases} p(x)={Γ(α)λαxα−1e−λx,0,x⩾0,x<0,
则称 X X X 服从伽玛分布, 记作 X ∼ G a ( α , λ ) X \sim G a(\alpha, \lambda) X∼Ga(α,λ), 其中 α > 0 \alpha>0 α>0 为形状参数, λ > 0 \lambda>0 λ>0 为尺度参数.
三、伽玛分布 G a ( α , λ ) G a(\alpha, \lambda) Ga(α,λ) 的数学期望和方差
利用伽玛函数的性质, 不难算得伽玛分布 G a ( α , λ ) \mathrm{Ga}(\alpha, \lambda) Ga(α,λ) 的数学期望为
E ( X ) = λ α Γ ( α ) ∫ 0 ∞ x α e − λ x d x = Γ ( α + 1 ) Γ ( α ) 1 λ = α λ , E(X)=\frac{\lambda^\alpha}{\Gamma(\alpha)} \int_0^{\infty} x^\alpha \mathrm{e}^{-\lambda x} \mathrm{~d} x=\frac{\Gamma(\alpha+1)}{\Gamma(\alpha)} \frac{1}{\lambda}=\frac{\alpha}{\lambda}, E(X)=Γ(α)λα∫0∞xαe−λx dx=Γ(α)Γ(α+1)λ1=λα,
X X X 的方差为
Var ( X ) = E ( X 2 ) − [ E ( X ) ] 2 = α ( α + 1 ) λ 2 − ( α λ ) 2 = α λ 2 . \operatorname{Var}(X)=E\left(X^2\right)-[E(X)]^2=\frac{\alpha(\alpha+1)}{\lambda^2}-\left(\frac{\alpha}{\lambda}\right)^2=\frac{\alpha}{\lambda^2} . Var(X)=E(X2)−[E(X)]2=λ2α(α+1)−(λα)2=λ2α.
四、伽玛分布的两个特例
伽玛分布有两个常用的特例:
因为 χ 2 \chi^2 χ2 分布是特殊的份玛分布, 故由伽玛分布的期望和方差, 很容易得到 χ 2 \chi^2 χ2 分布的期望和方差为
E ( X ) = n , Var ( X ) = 2 n . E(X)=n, \quad \operatorname{Var}(X)=2 n . E(X)=n,Var(X)=2n.
一、贝塔函数
称以下函数
B ( a , b ) = ∫ 0 1 x a − 1 ( 1 − x ) b − 1 d x \mathrm{B}(a, b)=\int_0^1 x^{a-1}(1-x)^{b-1} \mathrm{~d} x B(a,b)=∫01xa−1(1−x)b−1 dx
为贝塔函数, 其中参数 a > 0 , b > 0 a>0, b>0 a>0,b>0. 贝塔函数具有如下性质:
(1) B ( a , b ) = B ( b , a ) \mathrm{B}(a, b)=\mathrm{B}(b, a) B(a,b)=B(b,a).
(2) 贝塔函数与伽玛函数间有关系
B ( a , b ) = Γ ( a ) Γ ( b ) Γ ( a + b ) . \mathrm{B}(a, b)=\frac{\Gamma(a) \Gamma(b)}{\Gamma(a+b)} . B(a,b)=Γ(a+b)Γ(a)Γ(b).
二、贝塔分布
若随机变量 X X X 的密度函数为 p ( x ) = { Γ ( a + b ) Γ ( a ) Γ ( b ) x a − 1 ( 1 − x ) b − 1 , 0 < x < 1 , 0 , 其他, p(x)= \begin{cases}\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} x^{a-1}(1-x)^{b-1}, & 0
则称 X X X 服从贝塔分布, 记作 X ∼ B e ( a , b ) X \sim B e(a, b) X∼Be(a,b), 其中 a > 0 , b > 0 a>0, b>0 a>0,b>0 都是形状参数.
三、贝塔分布 B e ( a , b ) B e(a, b) Be(a,b) 的数学期望和方差
利用贝塔函数的性质, 不难算得贝塔分布 Be ( a , b ) \operatorname{Be}(a, b) Be(a,b) 的数学期望为
E ( X ) = Γ ( a + b ) Γ ( a ) Γ ( b ) ∫ 0 1 x a ( 1 − x ) b − 1 d x = Γ ( a + b ) Γ ( a ) Γ ( b ) ⋅ Γ ( a + 1 ) Γ ( b ) Γ ( a + b + 1 ) = a a + b . \begin{aligned} E(X) &=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \int_0^1 x^a(1-x)^{b-1} \mathrm{~d} x \\ &=\frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} \cdot \frac{\Gamma(a+1) \Gamma(b)}{\Gamma(a+b+1)}=\frac{a}{a+b} . \end{aligned} E(X)=Γ(a)Γ(b)Γ(a+b)∫01xa(1−x)b−1 dx=Γ(a)Γ(b)Γ(a+b)⋅Γ(a+b+1)Γ(a+1)Γ(b)=a+ba.
X X X 的方差为 Var ( X ) = a ( a + 1 ) ( a + b ) ( a + b + 1 ) − ( a a + b ) 2 = a b ( a + b ) 2 ( a + b + 1 ) . \operatorname{Var}(X)=\frac{a(a+1)}{(a+b)(a+b+1)}-\left(\frac{a}{a+b}\right)^2=\frac{a b}{(a+b)^2(a+b+1)} . Var(X)=(a+b)(a+b+1)a(a+1)−(a+ba)2=(a+b)2(a+b+1)ab.
设 y = g ( x ) y=g(x) y=g(x) 是定义在直线上的一个函数, X X X 是一个随机变量, 那么 Y = Y= Y= g ( X ) g(X) g(X) 作为 X X X 的函数, 同样也是一个随机变量. 在实际问题中, 我们经常感兴趣的问题是: 已知随机变量 X X X 的分布, 如何求出另一个随机变量 Y = g ( X ) Y=g(X) Y=g(X) 的分布.
离散随机变量函数的分布是比较容易求得的,在此不做赘述。
对连续随机变量 X X X,我们分以下几种情况讨论 Y = g ( X ) Y=g(X) Y=g(X) 的分布.
一、当 g ( x ) g(x) g(x) 为严格单调时
定理 2.6.1 设 X X X 是连续随机变量,其密度函数为 p X ( x ) . Y = g ( X ) p_X(x) . Y=g(X) pX(x).Y=g(X) 是另一 个随机变量. 若 y = g ( x ) y=g(x) y=g(x) 严格单调, 其反函数 h ( y ) h(y) h(y) 有连续导函数, 则 Y = g ( X ) Y=g(X) Y=g(X) 的密度函数为
p γ ( y ) = { p x [ h ( y ) ] ∣ h ′ ( y ) ∣ , a < y < b , 0 , 其他. p_\gamma(y)=\left\{\begin{array}{lc} p_x[h(y)]\left|h^{\prime}(y)\right|, & apγ(y)={px[h(y)]∣h′(y)∣,0,a<y<b, 其他.
其中 a = min { g ( − ∞ ) , g ( ∞ ) } , b = max { g ( − ∞ ) , g ( ∞ ) ∣ a=\min \{g(-\infty), g(\infty)\}, b=\max \{g(-\infty), g(\infty) \mid a=min{g(−∞),g(∞)},b=max{g(−∞),g(∞)∣.
定理 2.6.2 设随机变量 X X X 服从正态分布 N ( μ , σ ) N(\mu, \sigma) N(μ,σ), 则当 a ≠ 0 a \neq 0 a=0 时, 有 Y = Y= Y= a X + b ∼ N ( a μ + b , a 2 σ 2 ) a X+b \sim N\left(a \mu+b, a^2 \sigma^2\right) aX+b∼N(aμ+b,a2σ2).
这个定理表明:正态变量的线性变换仍为正态变量,其数学期望和方差可直接从线性变换求得.
定理 2.6.3(对数正态分布) 设随机变量 X ∼ N ( μ , σ 2 ) X \sim N\left(\mu, \sigma^2\right) X∼N(μ,σ2), 则 Y = e x Y=\mathrm{e}^x Y=ex 的概率密度函数为
p γ ( y ) = { 1 2 π y σ exp { − ( ln y − μ ) 2 2 σ 2 } , y > 0 , 0 , y ⩽ 0. p_\gamma(y)= \begin{cases}\frac{1}{\sqrt{2 \pi} y \sigma} \exp \left\{-\frac{(\ln y-\mu)^2}{2 \sigma^2}\right\}, & y>0, \\ 0, & y \leqslant 0 .\end{cases} pγ(y)={2πyσ1exp{−2σ2(lny−μ)2},0,y>0,y⩽0.
这个分布被称为对数正态分布, 记为 L N ( μ , σ 2 ) L N\left(\mu, \sigma^2\right) LN(μ,σ2), 其中 μ \mu μ 称为对数均值, σ 2 \sigma^2 σ2 称为对数方差.
定理 2.6.4 设随机变量 X X X 服从伽玛分布 G a ( α , λ ) G a(\alpha, \lambda) Ga(α,λ), 则当 k > 0 k>0 k>0 时, 有 Y = k X ∼ G a ( α , λ / k ) Y=k X \sim G a(\alpha, \lambda / k) Y=kX∼Ga(α,λ/k).
定理 2.6.5 若随机变量 X X X 的分布函数 F x ( x ) F_x(x) Fx(x) 为严格单调增的连续函数, 其反函数 F x − 1 ( y ) F_x^{-1}(y) Fx−1(y) 存在, 则 Y = F x ( X ) Y=F_x(X) Y=Fx(X) 服从 ( 0 , 1 ) (0,1) (0,1) 上的均匀分布 U ( 0 , 1 ) U(0,1) U(0,1).
这个定理表明: 均匀分布在连续分布类中占有特殊地位. 任一个连续随机变量 X X X 都可通过其分布函数 F ( x ) F(x) F(x) 与均匀分布随机变量 U U U 发生关系. 譬如 X X X 服从指数分布 Exp ( λ ) \operatorname{Exp}(\lambda) Exp(λ), 其分布函数为 F ( x ) = 1 − e − λ x F(x)=1-\mathrm{e}^{-\lambda x} F(x)=1−e−λx, 当 x x x 换为 X X X 后, 有
U = 1 − e − λ x 或 X = 1 λ ln 1 1 − U . U=1-\mathrm{e}^{-\lambda x} \text { 或 } X=\frac{1}{\lambda} \ln \frac{1}{1-U} \text {. } U=1−e−λx 或 X=λ1ln1−U1.
后一式表明: 由均匀分布 U ( 0 , 1 ) U(0,1) U(0,1) 的随机数 (由观察值) u i u_i ui 可得指数分布 Exp ( λ ) \operatorname{Exp}(\lambda) Exp(λ) 的随机数 x i = 1 λ ln 1 1 − u i , i = 1 , 2 , ⋯ , n , ⋯ x_i=\frac{1}{\lambda} \ln \frac{1}{1-u_i}, i=1,2, \cdots, n, \cdots xi=λ1ln1−ui1,i=1,2,⋯,n,⋯. 而均匀分布随机数在任一个统计软件都可产生, 从而指数分布 (继而其他分布) 随机数也可获得. 而各种分布随机数的获得是进行随机模拟法 (又称蒙特卡罗法)的基础.
二、当 g ( x ) g(x) g(x) 为其他形式时
当使用定理 2.6.1 寻求 Y = g ( X ) Y=g(X) Y=g(X) 的分布有困难时, 可直接由 Y Y Y 的分布函数 F γ ( y ) = P ( g ( X ) ⩽ y ) F_\gamma(y)=P(g(X) \leqslant y) Fγ(y)=P(g(X)⩽y) 出发, 按函数 g ( x ) g(x) g(x) 的特点作个案处理。
定义 2.7.1
设 X X X 为随机变量, k k k 为正整数. 如果以下的数学期望都存在, 则称
μ k = E ( X k ) \mu_k=E\left(X^k\right) μk=E(Xk)
为 X X X 的 k k k 阶原点矩. 称
ν k = E ( X − E ( X ) ) k \nu_{k}=E(X-E(X))^k νk=E(X−E(X))k
为 X X X 的 k k k 阶中心矩.
显然,一阶原点矩就是数学期望, 二阶中心矩就是方差. 由于 ∣ X ∣ k − 1 ⩽ |X|^{k-1} \leqslant ∣X∣k−1⩽ ∣ X ∣ k + 1 |X|^k+1 ∣X∣k+1, 故 k k k 阶矩存在时, k − 1 k-1 k−1 阶矩也存在, 从而低于 k k k 的各阶矩都存在. 中心矩和原点矩之间有一个简单的关系,
ν k = E ( X − E ( X ) ) k = E ( X − μ 1 ) k = ∑ i = 0 i ( k i ) μ i ( − μ 1 ) k − i , \nu_k=E(X-E(X))^k=E\left(X-\mu_1\right)^k=\sum_{i=0}^i\left(\begin{array}{l} k \\ i \end{array}\right) \mu_i\left(-\mu_1\right)^{k-i} \text {, } νk=E(X−E(X))k=E(X−μ1)k=i=0∑i(ki)μi(−μ1)k−i,
故前四阶中心矩可分别用原点矩表示如下:
ν 1 = 0 , ν 2 = μ 2 − μ 1 2 , ν 3 = μ 3 − 3 μ 2 μ 1 + 2 μ 1 3 , ν 4 = μ 4 − 4 μ 3 μ 1 + 6 μ 2 μ 1 2 − 3 μ 1 4 . \begin{aligned} &\nu_1=0, \\ &\nu_2=\mu_2-\mu_1^2, \\ &\nu_3=\mu_3-3 \mu_2 \mu_1+2 \mu_1^3, \\ &\nu_4=\mu_4-4 \mu_3 \mu_1+6 \mu_2 \mu_1^2-3 \mu_1^4 . \end{aligned} ν1=0,ν2=μ2−μ12,ν3=μ3−3μ2μ1+2μ13,ν4=μ4−4μ3μ1+6μ2μ12−3μ14.
方差 (或标准差) 反映了随机变量取值的波动程度,但在比较两个随机变量的波动大小时, 如果仅看方差 (或标准差) 的大小有时会产生不合理的现象. 这有两个原因: (1) 随机变量的取值有量纲, 不同量纲的随机变量用其方差(或标准差)去比较它们的波动大小不太合理. (2) 在取值的量纲相同的情况下, 取值的大小有一个相对性问题, 取值较大的随机变量的方差 (或标准差) 也允许大一些.
所以要比较两个随机变量的波动大小时, 在有些场合使用以下定义的变异系数来进行比较, 更具可比性.
定义 2.7.2
设随机变量 X X X 的二阶矩存在, 则称比值
C i ( X ) = Var ( X ) E ( X ) = σ ( X ) E ( X ) C_i(X)=\frac{\sqrt{\operatorname{Var}(X)}}{E(X)}=\frac{\sigma(X)}{E(X)} Ci(X)=E(X)Var(X)=E(X)σ(X)
为 X X X 的变异系数.
因为变异系数是以其数学期望为单位去度量随机变量取值波动程度的特征数, 标准差的量纲与数学期望的量纲是一致的, 所以变异系数是一个无量纲的量,从而消除量纲对波动的影响.
定义 2.7.3
设连续随机变量 X X X 的分布函数为 F ( x ) F(x) F(x), 密度函数为 p ( x ) p(x) p(x). 对 任意 p ∈ ( 0 , 1 ) p \in(0,1) p∈(0,1),称满足条件
F ( x p ) = ∫ − ∞ x p p ( x ) d x = p F\left(x_p\right)=\int_{-\infty}^{x_p} p(x) \mathrm{d} x=p F(xp)=∫−∞xpp(x)dx=p
的 x x x, 为此分布的 p p p 分位数,又称下侧 p p p 分位数.
同理我们称满足条件
1 − F ( x p ′ ) = ∫ x p ′ ∞ p ( x ) d x = p 1-F\left(x_p^{\prime}\right)=\int_{x_p^{\prime}}^{\infty} p(x) \mathrm{d} x=p 1−F(xp′)=∫xp′∞p(x)dx=p
的 x 1 ′ x_1^{\prime} x1′ 为此分布的上侧 p p p 分位数.
分位数与上侧分位数是可以相互转换的, 其转换公式如下.
x p ′ = x 1 − p , x p = x 1 − p ′ . x_p^{\prime}=x_{1-p}, \quad x_p=x_{1-p}^{\prime} \text {. } xp′=x1−p,xp=x1−p′.
定义 2.7.4
设连续随机变量 X X X 的分布函数为 F ( x ) F(x) F(x), 密度函数为 p ( x ) p(x) p(x). 称 p = 0.5 p=0.5 p=0.5 时的 p p p 分位数 x 0.5 x_{0.5} x0.5 为此分布的中位数, 即 x 0.5 x_{0.5} x0.5 满足
F ( x 0.5 ) = ∫ − ∞ x 0.5 p ( x ) d x = 0.5. F\left(x_{0.5}\right)=\int_{-\infty}^{x_{0.5}} p(x) \mathrm{d} x=0.5 . F(x0.5)=∫−∞x0.5p(x)dx=0.5.
定义 2.7.5 设随机变量 X X X 的前三阶矩存在, 则如下比值
β S = ν 3 ν 2 3 / 2 = E ( X − E X ) 3 [ Var ( X ) ] 3 / 2 \beta_S=\frac{\nu_3}{\nu_2^{3 / 2}}=\frac{E(X-E X)^3}{[\operatorname{Var}(X)]^{3 / 2}} βS=ν23/2ν3=[Var(X)]3/2E(X−EX)3
称为 X X X (或分布) 的偏度系数, 简称偏度. 当 β s > 0 \beta_s>0 βs>0 时, 称该分布为正偏, 又称右偏;当 β s < 0 \beta_s<0 βs<0 时,称该分布为负偏,又称左偏.
定义 2.7.6
设随机变量 X X X 的前四阶矩存在, 则如下比值减去 3
β k = ν 4 ν 2 2 − 3 = E ( X − E X ) 4 [ Var ( X ) ] 2 − 3 \beta_k=\frac{\nu_4}{\nu_2^2}-3=\frac{E(X-E X)^4}{[\operatorname{Var}(X)]^2}-3 βk=ν22ν4−3=[Var(X)]2E(X−EX)4−3
称为 X X X (或分布) 的峰度系数, 简称峰度.