概率论之大数定律和中心极限定理

1.大数定律

教材说这是概率论最精彩的一章。。。,我觉得说的不错。。。,感觉需要吃透这几个定理。

1.1切比雪夫不等式

设随机变量 X X X的均值 E X EX EX及方差 D X DX DX存在,则对于任意正数 ε \varepsilon ε,有不等式
P { ∣ X − E X ∣ ≥ ε } ≤ D X ε 2 P\{|X-EX|\ge\varepsilon\}\le\frac{DX}{\varepsilon^2} P{XEXε}ε2DX
P { ∣ X − E X ∣ < ε } ≥ 1 − D X ε 2 P\{|X-EX|<\varepsilon\}\ge1-\frac{DX}{\varepsilon^2} P{XEX<ε}1ε2DX
成立,我们称该不等式为切比雪夫不等式。
从定理中看出 D X DX DX越小,那么随机变量 X X X取值于开区间 ( E X − ε , E X + ε ) (EX-\varepsilon,EX+\varepsilon) (EXε,EX+ε)的概率就越大,这就说明方差是一个反映随机变量的概率分布对其分布中心 E X EX EX的集中程度的数量指标。

1.2切比雪夫大数定理

设相互独立的随机变量 X 1 , X 2 , . . . , X n , . . . X_1,X_2,...,X_n,... X1,X2,...,Xn,...分别具有均值 E X 1 , E X 2 , . . . , E X n , . . . EX_1,EX_2,...,EX_n,... EX1,EX2,...,EXn,...及有界方差 D X 1 , D X 2 , . . . , D X n , . . . DX_1,DX_2,...,DX_n,... DX1,DX2,...,DXn,...,即存在常数C,使 D X k ≤ C DX_k\le{C} DXkC,则对于任意正整数 ε \varepsilon ε
lim ⁡ n → ∞ P { ∣ 1 n ∑ k = 1 n X k − 1 n ∑ k = 1 n E X k ∣ < ε } = 1 \lim_{n\to\infty}P\{|\frac1n\sum_{k=1}^nX_k-\frac1n\sum_{k=1}^nEX_k|<\varepsilon\}=1 nlimP{n1k=1nXkn1k=1nEXk<ε}=1

1.3伯努利大数定律

μ n \mu_n μn n n n次试验中事件 A A A出现的频率, p p p是事件 A A A在每次试验中发生的概率,则对于任意正整数 ε \varepsilon ε,有
lim ⁡ n → ∞ P { ∣ μ n n − p ∣ < ε } = 1 \lim_{n\to\infty}P\{|\frac{\mu_n}n-p|<\varepsilon\}=1 nlimP{nμnp<ε}=1

1.4马尔可夫大数定律

对于随机变量序列 X 1 , X 2 , . . . , X n , . . . X_1,X_2,...,X_n,... X1,X2,...,Xn,...,如果满足 1 n D ( ∑ k = 1 n X k ) → 0 \frac1nD(\sum_{k=1}^nX_k)\to0 n1D(k=1nXk)0,则对任意 ε > 0 \varepsilon>0 ε>0,有
lim ⁡ n → ∞ P { ∣ 1 n ∑ k = 1 n X k − 1 n ∑ k = 1 n E X k ∣ < ε } = 1 \lim_{n\to\infty}P\{|\frac1n\sum_{k=1}^nX_k-\frac1n\sum_{k=1}^nEX_k|<\varepsilon\}=1 nlimP{n1k=1nXkn1k=1nEXk<ε}=1

1.5辛钦大数定律

设相互独立的随机变量 X 1 , X 2 , . . . , X n , . . . X_1,X_2,...,X_n,... X1,X2,...,Xn,...有相同的分布,而且 E X k = μ EX_k=\mu EXk=μ存在,则对于任意的 ε > 0 \varepsilon>0 ε>0,有
lim ⁡ n → ∞ P { ∣ 1 n ∑ k = 1 n X k − μ ∣ < ε } = 1 \lim_{n\to\infty}P\{|\frac1n\sum_{k=1}^nX_k-\mu|<\varepsilon\}=1 nlimP{n1k=1nXkμ<ε}=1

1.6柯尔莫哥洛夫强大数定律

设相互独立的随机变量 X 1 , X 2 , . . . , X n , . . . X_1,X_2,...,X_n,... X1,X2,...,Xn,...有相同的分布,而且 E X k = μ EX_k=\mu EXk=μ存在,若
P { lim ⁡ n → ∞ 1 n ∑ k = 1 n ( X i − E X k ) = 0 } = 1 P\{\lim_{n\to\infty}\frac1n\sum_{k=1}^n(X_i-EX_k)=0\}=1 P{nlimn1k=1n(XiEXk)=0}=1,称独立随机变量序列 { X k } \{X_k\} {Xk}满足强大数定律,即对任意 ε > 0 \varepsilon>0 ε>0
lim ⁡ n → ∞ P { ⋃ s = n ∞ ∣ 1 s ∑ k = 1 s ( X k − E X k ) ∣ ≥ ε } = 0 成 立 \lim_{n\to\infty}P\{\bigcup_{s=n}^{\infty}|\frac1s\sum_{k=1}^s(X_k-EX_k)|\ge\varepsilon\}=0成立 nlimP{s=ns1k=1s(XkEXk)ε}=0

1.7研究大数定律的意义

经验告诉我们,具有接近于1的摄率的随机事件在一次试验中几乎一定要发生;同样,极率很小,接近零的事件在一次试验中可以看做实际不可能发生事件.
生活中,1%的含有染菌的药品是绝对不能忽略的;而1%残次的纽扣则问题不大,因此在实际工作及一般理论问题中,概率接近1或0的事件具有特别重要的研究价值。概率论的基本问题之一就是要建立概率趋于 1或0的规律,大数定律就基这种概率论中最重要的结论之一。
伯努利大数定律建立了在大量重复独立试验中事件出现频率的稳定性,正因为这种稳定性,概率的含义才有客观解释。另外它还提供了通过试验来确定事件概率的方法,既然频率 μ n n \frac{\mu_n}n nμn与概率 p p p有较大偏差的可能性很小,那么可以通过做试验确定某事件发生的频率并将它作为相应概率的估计,这种方法称为参数估计,它是数理统计中主要研究课题之一,参数估计的理论基础之一就是大数定律。

2中心极限定理

中心极限定理是研究在适当的条件下独立随机变量的部分和 ∑ k = 1 n X k \sum_{k=1}^nX_k k=1nXk的分布函数收敛于正态分布的问题。

2.1林德伯格-勒维定理

设相互独立的随机变量 X 1 , X 2 , . . . , X n , . . . X_1,X_2,...,X_n,... X1,X2,...,Xn,...有相同的分布,而且d E X k = μ , D X k = σ 2 ≠ 0 EX_k=\mu,DX_k=\sigma^2\ne0 EXk=μ,DXk=σ2̸=0,则对于任意 x x x,随机变量 Y n = ∑ k = 1 n X k − n μ n σ Y_n=\frac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma} Yn=n σk=1nXknμ的分布函数 F n ( x ) F_n(x) Fn(x)趋于标准正态分布函数,即有
lim ⁡ n → ∞ F n ( x ) = lim ⁡ n → ∞ P { ∑ k = 1 n X k − n μ n σ ≤ x } = ∫ − ∞ x 1 2 π e − t 2 2 d t \lim_{n\to\infty}F_n(x)=\lim_{n\to\infty}P\{\frac{\sum_{k=1}^nX_k-n\mu}{\sqrt{n}\sigma}\le{x}\}=\int_{-\infty}^x\frac1{\sqrt{2\pi}}e^{-\frac{t^2}2}dt nlimFn(x)=nlimP{n σk=1nXknμx}=x2π 1e2t2dt

2.2棣莫弗-拉普拉斯定理

μ n \mu_n μn表示n次独立重复试验中事件A发生的次数,p是事件A在每次试验中发生的概率,则对于任意区间[a,b],恒有
1. lim ⁡ n → ∞ P { a < μ n − n p n p ( 1 − p ) ≤ b } = ∫ a b 1 2 π e − t 2 2 d t , 1.\lim_{n\to\infty}P\{a<\frac{\mu_n-np}{\sqrt{np(1-p)}}\le{b}\}=\int_a^b\frac1{\sqrt{2\pi}}e^{-\frac{t^2}2}dt, 1.nlimP{a<np(1p) μnnpb}=ab2π 1e2t2dt,
2. b ( k ; n , p ) ≈ 1 n p q φ 0 ( k − n p n p q ) = 1 2 π × n p q e − 1 2 ( k − n p n p q ) 2 2.b(k;n,p)\approx\frac1{\sqrt{npq}}\varphi_0(\frac{k-np}{\sqrt{npq}})=\frac1{\sqrt{2\pi}\times\sqrt{npq}}e^{-\frac12(\frac{k-np}{\sqrt{npq}})^2} 2.b(k;n,p)npq 1φ0(npq knp)=2π ×npq 1e21(npq knp)2

3.集中概率极限的含义

3.1依分布收敛

设随机变量 X n ( ω ) , X ( ω ) X_n(\omega),X(\omega) Xn(ω),X(ω)的分布函数分别是 F n ( x ) , F ( x ) F_n(x),F(x) Fn(x),F(x),如果 F n ( x ) → F ( x ) F_n(x)\to{F(x)} Fn(x)F(x),则称 X n ( ω ) X_n(\omega) Xn(ω)依分布收敛于 X ( ω ) X(\omega) X(ω),并记为 X n ( ω ) → L X ( ω ) X_n(\omega)\to^LX(\omega) Xn(ω)LX(ω)

3.2依概率收敛

设随机变量 X n ( ω ) , X ( ω ) X_n(\omega),X(\omega) Xn(ω),X(ω)如果,
lim ⁡ n → ∞ P { ∣ X n ( ω ) − X ( ω ) ∣ ≥ ε } = 0 \lim_{n\to\infty}P\{|X_n(\omega)-X(\omega)|\ge\varepsilon\}=0 nlimP{Xn(ω)X(ω)ε}=0
对任意 ε > 0 \varepsilon>0 ε>0成立,则称 X n ( ω ) X_n(\omega) Xn(ω)依概率收敛于 X ( ω ) X(\omega) X(ω),并记为 X n ( ω ) → P X ( ω ) X_n(\omega)\to^PX(\omega) Xn(ω)PX(ω)

你可能感兴趣的:(读书笔记,概率论,机器学习)