数学基础之概率论(2)——随机变量及其分布

数学基础之概率论(2)——随机变量及其分布

1、随机变量
a. 定义:设 E E E是随机试验,它的样本空间是 S = { e } S=\{e\} S={ e}。如果对于每一个 e ∈ S e\in S eS,有一个实数 X ( e ) X(e) X(e)与之对应,这样就得到一个定义在 S S S上的单值实值函数 X ( e ) X(e) X(e),称 X ( e ) X(e) X(e)为随机变量(随机变量常用 X , Y , Z X,Y,Z X,Y,Z ξ , η \xi,\eta ξ,η 等来表示)。
定义说明:
( 1 ) (1) (1) 随机变量与普通的函数不同,由于随机变量是定义在样本空间上的,所以它的自变量不一定是实数;
( 2 ) (2) (2) 随机变量的取值具有一定的概率规律;
( 3 ) (3) (3) 随机事件被包含在随机变量这个概念里。

b. 分类:
( 1 ) (1) (1) 离散型:随机变量所取的可能值是有限多个或者无限可列个,叫做离散型随机变量
( 2 ) (2) (2) 连续型:随机变量所取的可能值可以连续地充满某个区间,叫做连续型随机变量

2、离散型随机变量的分布律
a. 定义:若随机变量 X X X取值 x 1 , x 2 , . . . , x n , . . . , x_{1},x_{2},...,x_{n},..., x1,x2,...,xn,...,且取这些值的概率依次为 p 1 , p 2 , . . . , p n , . . . , p_{1},p_{2},...,p_{n},..., p1,p2,...,pn,...,则称 P { X = x k } = p k , ( k = 1 , 2 , 3... ) P\{X=x_{k}\}=p_{k},(k=1,2,3...) P{ X=xk}=pk,(k=1,2,3...) X X X的分布律。
可以表示为: X ∼ P { X = x k } = p k , ( k = 1 , 2 , 3 , . . . ) , X\sim P\{X=x_{k}\}=p_{k},(k=1,2,3,...), XP{ X=xk}=pk,(k=1,2,3,...),
或者:

X X X x 1 x_{1} x1 x 2 x_{2} x2 . . . ... ... x k x_{k} xk . . . ... ...
P k P_{k} Pk p 1 p_{1} p1 p 2 p_{2} p2 . . . ... ... p k p_{k} pk . . . ... ...

b. 性质:
( 1 ) (1) (1) 非负性: p k ⩾ 0 , k = 1 , 2 , 3 , . . . ; p_{k}\geqslant 0,k=1,2,3,...; pk0,k=1,2,3,...;
( 2 ) (2) (2) 归一性: ∑ k ⩾ 1 p k = 1 \sum_{k\geqslant1}p_{k}=1 k1pk=1
因此,对于离散型随机变量来说,概率分布律可以完全描述它的统计规律,即已知分布律,就可以求出各种概率。
P ( X ∈ ( a , b ) ) = ∑ x i ∈ ( a , b ) P ( X = x i ) P(X\in(a,b))=\sum_{x_{i}\in(a,b)}P(X=x_{i}) P(X(a,b))=xi(a,b)P(X=xi)

c. 两点分布:设随机变量 X X X只可能取 0 0 0 1 1 1 两个值,它的分布律为:

X X X 0 0 0 1 1 1
p k p_{k} pk 1 − p 1-p 1p p p p

则称 X X X服从(0-1)分布或者两点分布。由此,我们有了贝努利试验的概念:若试验 E E E只有两个结果,记为 A , A c A,A^{c} A,Ac

d. 二项分布:
在了解二项分布的概念之前,我们先来看看根据贝努利试验而衍生出的 n n n重贝努利试验:独立(指某次试验事件 A A A发生与否与其他次试验事件 A A A发生与否互不影响)重复(指每次试验 P ( A ) P(A) P(A)恒定不变)地进行 n n n次贝努利试验。
下面我们来看二项概率公式:若 X X X表示 n n n重贝努利试验中事件 A A A发生的次数,则 X X X所有可能取得的值为 0 , 1 , 2 , . . . , n 0,1,2,...,n 0,1,2,...,n。当 X = k ( 0 ⩽ k ⩽ n ) X=k(0\leqslant k\leqslant n) X=k(0kn)时,即 A A A n n n次试验中发生了 k k k次。由于 A A A n n n次试验中发生 k k k次的方式共有 ( k n ) (_{k}^{n}) (kn)种,且两两无关,所以概率为 ( k n ) p k ( 1 − p ) n − k → q = 1 − p ( k n ) p k q n − k (_{k}^{n})p^{k}(1-p)^{n-k}\xrightarrow{q=1-p}(_{k}^{n})p^{k}q^{n-k} (kn)pk(1p)nkq=1p (kn)pkqnk,得 X X X的分布律为

X X X 0 0 0 1 1 1 . . . ... ... k k k . . . ... ... n n n
p k p_{k} pk q n q^{n} qn ( 1 n ) p q n − 1 (_{1}^{n})pq^{n-1} (1n)pqn1 . . . ... ... ( k n ) p k q n − k (_{k}^{n})p^{k}q^{n-k} (kn)pkqnk . . . ... ... p n p^{n} pn

称这样的分布为二项分布。记为 X ∼ b ( n , p ) X\sim b(n,p) Xb(n,p)
实际上,二项分布 → n = 1 \xrightarrow{n=1} n=1 两点分布。但是,二项分布也给我们带来了新面孔:二项分布 → n p → λ ( n → + ∞ ) \xrightarrow{np\rightarrow \lambda(n\rightarrow+\infty)} npλ(n+) 泊松分布( λ \lambda λ指一个定值)。

e. 泊松分布:设随机变量所有可能取的值为 0 , 1 , 2 , . . . , 0,1,2,..., 0,1,2,...,而取各个值的概率为 P { X = k } = λ k e − λ k ! , k = 0 , 1 , 2 , . . . , P\{X=k\}=\frac{\lambda^{k}e^{-\lambda}}{k!},k=0,1,2,..., P{ X=k}=k!λkeλ,k=0,1,2,...,其中 λ > 0 \lambda>0 λ>0是常数。则称 X X X服从参数为 λ \lambda λ的泊松分布,记为 X ∼ π ( λ ) X\sim \pi(\lambda) Xπ(λ)。(泊松分布多见于用随机变量 X X X表示在一定的时间或空间内出现的事件个数的场合)上面二项分布和泊松分布的转化,一般满足 n > 10 , p < 0.1 n>10,p<0.1 n>10,p<0.1就可以了。我们来简单看看证明的计算过程:
已知: X ∼ b ( n , p ) X\sim b(n,p) Xb(n,p) n p → λ ( n → + ∞ ) np\rightarrow\lambda(n\rightarrow+\infty) npλ(n+),则
P { X = k } P\{X=k\} P{ X=k}
= ( n − 1 ) ( n − 2 ) ⋅ ⋅ ⋅ ( n − k + 1 ) × ( n − k ) ! × ( p n 1 − p n ) k ( 1 − p n ) n k ! ( n − k ) ! =\frac{(n-1)(n-2)···(n-k+1)\times(n-k)!\times(\frac{p_{n}}{1-p_{n}})^{k}(1-p_{n})^{n}}{k!(n-k)!} =k!(nk)!(n1)(n2)(nk+1)×(nk)!×(1pnpn)k(1pn)n
≈ ( n p n 1 − p n ) k ( 1 − n p n n ) n k ! → λ k e − λ k ! \approx\frac{(\frac{np_{n}}{1-p_{n}})^{k}(1-\frac{np_{n}}{n})^{n}}{k!}\rightarrow\frac{\lambda^{k}e^{-\lambda}}{k!} k!(1pnnpn)k(1nnpn)nk!λkeλ

3、分布函数
a. 定义:设 X X X是随机变量, x x x是任意实数,函数 F ( x ) = P { X ⩽ x } F(x)=P\{X\leqslant x\} F(x)=P{ Xx}称为随机变量 X X X的分布函数。易知,对任意实数 a , b a,b a,b ( a < b ) , P { a < X ⩽ b } = P { X ⩽ b } − P { X ⩽ a } = F ( b ) − F ( a ) (a(a<b),P{ a<Xb}=P{ Xb}P{ Xa}=F(b)F(a)

b. 性质:
( 1 ) (1) (1) 单调不减性:若 x 1 < x 2 x_{1}x1<x2,则 F ( x 1 ) ⩽ F ( x 2 ) F(x_{1})\leqslant F(x_{2}) F(x1)F(x2)
( 2 ) (2) (2) 归一性:对任意实数 x , 0 ⩽ F ( x ) ⩽ 1 , x,0\leqslant F(x)\leqslant1, x,0F(x)1, F ( − ∞ ) = lim ⁡ x → − ∞ F ( x ) = 0 , F ( + ∞ ) = lim ⁡ x → + ∞ F ( x ) = 1 F(-\infty)=\lim_{x\to-\infty}F(x)=0,F(+\infty)=\lim_{x\to+\infty }F(x)=1 F()=limxF(x)=0,F(+)=limx+F(x)=1
( 3 ) (3) (3) 右连续性:对任意实数 x 0 , F ( x 0 + 0 ) = lim ⁡ x → x 0 + F ( x ) = F ( x 0 ) x_{0},F(x_{0}+0)=\lim_{x\to x_{0}^{+}}F(x)=F(x_{0}) x0,F(x0+0)=limxx0+F(x)=F(x0)
上述三个性质本身也是分布函数的充分必要性质。

c. 一般地,对离散型随机变量 X ∼ P { X = x k } = p k , k = 1 , 2 , 3 , . . . , X\sim P\{X=x_{k}\}=p_{k},k=1,2,3,..., XP{ X=xk}=pk,k=1,2,3,...,其分布函数为 F ( x ) = P { X ⩽ x } = ∑ k : x k ⩽ x p k F(x)=P\{X\leqslant x\}=\sum_{k:x_{k}\leqslant x}p_{k} F(x)=P{ Xx}=k:xkxpk。同时,离散型随机变量的分布函数是阶梯函数,其跳跃点对应离散型随机变量的可能取值点,跳跃高度对应随机变量取对应值的概率。反之,如果某随机变量的分布函数是阶梯函数,则该随机变量必为离散型。

d. 常用公式:
( 1 ) (1) (1) P { a < X ⩽ b } = F ( b ) − F ( a ) ; P\{aP{ a<Xb}=F(b)F(a);
( 2 ) (2) (2) P { X > a } = 1 − F ( a ) ; P\{X>a\}=1-F(a); P{ X>a}=1F(a);
( 3 ) (3) (3) P { X = a } = lim ⁡ x → a + F ( x ) − lim ⁡ x → a − F ( x ) = F ( a ) − F ( a − 0 ) ; P\{X=a\}=\lim_{x\to a^{+}}F(x)-\lim_{x\to a^{-}}F(x)=F(a)-F(a-0); P{ X=a}=limxa+F(x)limxaF(x)=F(a)F(a0);
( 4 ) (4) (4) P { X < a } = F { a − 0 } P\{XP{ X<a}=F{ a0}

4、连续型随机变量的概率密度
a. 定义:对于随机变量 X X X,若存在非负函数 f ( x ) , ( − ∞ < x < + ∞ ) f(x),(-\inftyf(x),(<x<+),使对于任意实数 x x x,都有 F ( x ) = P { X ⩽ x ) = ∫ − ∞ x f ( u ) d u F(x)=P\{X\leqslant x)=\int_{-\infty}^{x}f(u)du F(x)=P{ Xx)=xf(u)du,则称 X X X为连续型随机变量, f ( x ) f(x) f(x) X X X的概率密度函数,简称概率密度或密度函数。常记为: X ∼ f ( x ) , ( − ∞ < x < + ∞ ) X\sim f(x),(-\inftyXf(x),(<x<+)

b. 性质:
( 1 ) (1) (1) 非负性: f ( x ) ⩾ 0 , ( − ∞ < x < + ∞ ) f(x)\geqslant0,(-\inftyf(x)0,(<x<+)
( 2 ) (2) (2) 归一性: ∫ − ∞ + ∞ f ( x ) d x = 1 \int_{-\infty}^{+\infty}f(x)dx=1 +f(x)dx=1
上述性质同时也是密度函数的充要性质
( 3 ) (3) (3) P { x 1 < X ⩽ x 2 } = F ( x 2 ) − F ( x 1 ) = ∫ x 1 x 1 f ( x ) d x P\{x_{1}P{ x1<Xx2}=F(x2)F(x1)=x1x1f(x)dx
同时也有:
P { X ⩽ a } = F ( a ) = ∫ − ∞ a f ( x ) d x P\{X\leqslant a\}=F(a)=\int_{-\infty}^{a}f(x)dx P{ Xa}=F(a)=af(x)dx
P { X > a } = 1 − P { X ⩽ a } = ∫ − ∞ + ∞ f ( x ) d x + ∫ a − ∞ f ( x ) d x = ∫ a + ∞ f ( x ) d x P\{X>a\}=1-P\{X\leqslant a\}=\int_{-\infty}^{+\infty}f(x)dx+\int_{a}^{-\infty}f(x)dx=\int_{a}^{+\infty}f(x)dx P{ X>a}=1P{ Xa}=+f(x)dx+af(x)dx=a+f(x)dx
注意,对于任意可能值 a a a,连续型随机变量取 a a a的概率等于 0 0 0,即 P { X = a } = 0 P\{X=a\}=0 P{ X=a}=0,由此可得:
P { a ⩽ X ⩽ b } = P { a < X ⩽ b } = P { a ⩽ X < b } = P { a < X < b } P\{a\leqslant X\leqslant b\}=P\{aP{ aXb}=P{ a<Xb}=P{ aX<b}=P{ a<X<b},即连续型随机变量取值落在某一区间的概率与区间的开闭无关。这里也引出了连续型与离散型的一个区别:
X X X为离散型随机变量 { X = a } \{X=a\} { X=a}是不可能事件 ⇔ \Leftrightarrow P { X = a } = 0 P\{X=a\}=0 P{ X=a}=0;然而,若 X X X是连续型随机变量, { X = a } \{X=a\} { X=a}是不可能事件 ⇒ \Rightarrow P { X = a } = 0 P\{X=a\}=0 P{ X=a}=0 P { X = a } = 0 P\{X=a\}=0 P{ X=a}=0 ⇏ \nRightarrow { X = a } \{X=a\} { X=a}是不可能事件。
( 4 ) (4) (4) x x x f ( x ) f(x) f(x)的连续点,则 d F ( x ) d x = f ( x ) \frac{dF(x)}{dx}=f(x) dxdF(x)=f(x)

c. 均匀分布:若 X ∼ f ( x ) = { 1 b − a , a < x < b 0 , o t h e r s X\sim f(x)=\begin{cases}\frac{1}{b-a},aXf(x)=ba1,a<x<b0,others,则称 X X X ( a , b ) (a,b) (a,b)内服从均匀分布。记为 X ∼ U ( a , b ) X\sim U(a, b) XU(a,b)。对于任意实数 c , d ( a < c < d < b ) c,d(ac,d(a<c<d<b),都有 P { c < X < d } = ∫ c d f ( x ) d x = ∫ c d 1 b − a d x = d − c b − a P\{cP{ c<X<d}=cdf(x)dx=cdba1dx=badc,这说明 X X X落在 ( a , b ) (a,b) (a,b)中任一区间的概率只与该区间的长度成正比,而与该区间的位置无关,这就是均匀分布的概率意义。分布函数为: F ( x ) = { 0 ,    x < a x − a b − a ,    a ⩽ x < b 1 ,    x ⩾ b F(x)=\begin{cases}0,\space\space xF(x)=0,  x<abaxa,  ax<b1,  xb

d. 指数分布:若 X ∼ f ( x ) = { λ e − λ x ,    x > 0 0 ,    x ⩽ 0 X\sim f(x)=\begin{cases}\lambda e^{-\lambda x},\space\space x>0\\\\0,\space\space x\leqslant0\end{cases} Xf(x)=λeλx,  x>00,  x0,则称 X X X服从参数为 λ > 0 \lambda>0 λ>0的指数分布。分布函数为: F ( x ) = { 1 − e − λ x ,    x > 0 0 ,    x ⩽ 0 F(x)=\begin{cases}1-e^{-\lambda x},\space\space x>0\\\\0,\space\space x\leqslant0\end{cases} F(x)=1eλx,  x>00,  x0。注意,指数分布具有“无记忆性”: P { X > s + t ∣ X > s } = P { X > t } P\{X>s+t|X>s\}=P\{X>t\} P{ X>s+tX>s}=P{ X>t}

e. 正态分布/高斯分布:
定义:设连续型随机变量 X X X的概率密度为 f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 , − ∞ < x < + ∞ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}},-\inftyf(x)=2π σ1e2σ2(xμ)2,<x<+,其中 μ , σ ( σ > 0 ) \mu,\sigma(\sigma>0) μ,σ(σ>0)为常数,则称 X X X服从参数为 μ , σ \mu,\sigma μ,σ的正态分布或高斯分布,记为 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^{2}) XN(μ,σ2)
正态概率密度函数的几何特征:
( 1 ) (1) (1) 曲线关于 x = μ x=\mu x=μ对称;
( 2 ) (2) (2) x = μ x=\mu x=μ时, f ( x ) f(x) f(x)取得最大值 1 2 π σ \frac{1}{\sqrt{2\pi}\sigma} 2π σ1
( 3 ) (3) (3) x → ± ∞ x\to\pm\infty x±时, f ( x ) → 0 f(x)\to0 f(x)0
( 4 ) (4) (4) 曲线在 x = μ ± σ x=\mu\pm\sigma x=μ±σ处有拐点;
( 5 ) (5) (5) 曲线以 x x x轴为渐近线;
( 6 ) (6) (6) 当固定 σ \sigma σ,改变 μ \mu μ的大小时, f ( x ) f(x) f(x)图形的形状不变,只是沿着 x x x轴作平移变换;
( 7 ) (7) (7) 当固定 μ \mu μ,改变 σ \sigma σ的大小时, f ( x ) f(x) f(x)图形的对称轴不变,而形状在改变, σ \sigma σ越小,图形越陡。
分布函数为: F ( x ) = 1 2 π σ ∫ − ∞ x e − ( t − μ ) 2 2 σ 2 d t F(x)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{x}e^{-\frac{(t-\mu)^{2}}{2\sigma^{2}}}dt F(x)=2π σ1xe2σ2(tμ)2dt
标准正态分布:参数 μ = 0 , σ 2 = 1 \mu=0,\sigma^{2}=1 μ=0,σ2=1的正态分布,记为 X ∼ N ( 0 , 1 ) X\sim N(0,1) XN(0,1)。其密度函数为 φ ( x ) = 1 2 π e − x 2 2 , − ∞ < x < + ∞ \varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^{2}}{2}},-\inftyφ(x)=2π 1e2x2,<x<+,分布函数为 Φ ( x ) = P { X ⩽ x } = 1 2 π ∫ − ∞ x e − t 2 2 d t , − ∞ < x < + ∞ \Phi(x)=P\{X\leqslant x\}=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^{2}}{2}}dt,-\inftyΦ(x)=P{ Xx}=2π 1xe2t2dt,<x<+。注意,在计算 Φ ( x ) \Phi(x) Φ(x)值时,一般需要结合标准正态分布表和以下性质:
( 1 ) (1) (1) Φ ( x ) = 1 − Φ ( − x ) \Phi(x)=1-\Phi(-x) Φ(x)=1Φ(x)
( 2 ) (2) (2) X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^{2}) XN(μ,σ2),则 F ( x ) = P { X ⩽ x } = Φ ( x − μ σ ) F(x)=P\{X\leqslant x\}=\Phi(\frac{x-\mu}{\sigma}) F(x)=P{ Xx}=Φ(σxμ)

5、离散型随机变量函数的分布律
a. 定义:设 f ( x ) f(x) f(x)是定义在随机变量 X X X的一切可能值 x x x的集合上的函数,若随机变量 Y Y Y随着 X X X取值 x x x的值而取 y = f ( x ) y=f(x) y=f(x)的值,则称随机变量 Y Y Y为随机变量 X X X的函数,记为 Y = f ( X ) Y=f(X) Y=f(X)

b. 求法:如果 X X X是离散型随机变量,其函数 Y = g ( X ) Y=g(X) Y=g(X)也是离散型随机变量,若 X X X的分布律为

X X X x 1 x_{1} x1 x 2 x_{2} x2 . . . ... ... x k x_{k} xk . . . ... ...
p k p_{k} pk p 1 p_{1} p1 p 2 p_{2} p2 . . . ... ... p k p_{k} pk . . . ... ...

Y = g ( X ) Y=g(X) Y=g(X)的分布律为

Y = g ( X ) Y=g(X) Y=g(X) g ( x 1 ) g(x_{1}) g(x1) g ( x 2 ) g(x_{2}) g(x2) . . . ... ... g ( x k ) g(x_{k}) g(xk) . . . ... ...
p k p_{k} pk p 1 p_{1} p1 p 2 p_{2} p2 . . . ... ... p k p_{k} pk . . . ... ...

g ( x k ) g(x_{k}) g(xk)中有值相同的,将他们对应的 p k p_{k} pk合并。

6、连续型随机变量函数的密度函数
a. 定义:设 f ( x ) f(x) f(x)是定义在随机变量 X X X的一切可能值 x x x的集合上的函数,若随机变量 Y Y Y随着 X X X取值 x x x的值而取 y = f ( x ) y=f(x) y=f(x)的值,则称随机变量 Y Y Y为随机变量 X X X的函数,记为 Y = f ( X ) Y=f(X) Y=f(X)

b. 求法:
( 1 ) (1) (1) X ∼ f ( x ) , − ∞ < x < + ∞ , Y = g ( X ) X\sim f(x),-\inftyXf(x),<x<+,Y=g(X)为随机变量 X X X的函数,则可先求 Y Y Y的分布函数 F Y ( y ) = P { Y ⩽ y } = P { g ( X ) ⩽ y } = ∫ g ( X ) ⩽ y f ( x ) d x F_{Y}(y)=P\{Y\leqslant y\}=P\{g(X)\leqslant y\}=\int_{g(X)\leqslant y}f(x)dx FY(y)=P{ Yy}=P{ g(X)y}=g(X)yf(x)dx,再求 Y Y Y的密度函数 f Y ( y ) = d F Y ( y ) d y f_{Y}(y)=\frac{dF_{Y}(y)}{dy} fY(y)=dydFY(y)
( 2 ) (2) (2) 公式法:一般地,若 X ∼ f X ( x ) , Y = g ( X ) X\sim f_{X}(x),Y=g(X) XfX(x),Y=g(X)是严格单调可导函数,则 Y = g ( X ) ∼ f Y ( y ) = f X [ g − 1 ( y ) ] ∣ d d y g − 1 ( y ) ∣ Y=g(X)\sim f_{Y}(y)=f_{X}[g^{-1}(y)]|\frac{d}{dy}g^{-1}(y)| Y=g(X)fY(y)=fX[g1(y)]dydg1(y)。注意定义域的选取。

你可能感兴趣的:(Programming学习笔记)