机器学习|中心极限定理|10mins入门|概统学习笔记(十六)

中心极限定理

  • 客观背景:在实际问题中,常常需要考虑许多随机因素所产生总影响。

    自从高斯指出测量误差服从正态分布之后,人们发现,正态分布在自然界中极为常见。观察表明,如果一个量是由大量互相独立的随机因素的影响所造成,而每一个别因素在总影响中所起的作用不大。则这种量一般都服从或近似服从正态分布。

  • 问题:研究独立随机变量之和所特有的规律性问题。当n无限增大时,这个和的极限分布是什么呢?在什么条件下极限分布会是正态的呢?

    由于无穷个随机变量之和可能趋于 ∞ \infty ,故我们不研究n个随机变量之和本身而考虑它的标准化的随机变量
    Z = ∑ k = 1 n X n − E ( ∑ k = 1 n X k ) D ( ∑ k = 1 n X k ) Z_=\frac{\sum_{k=1}^nX_n-E(\sum_{k=1}^nX_k)}{\sqrt{D(\sum_{k=1}^nX_k)}} Z=D(k=1nXk) k=1nXnE(k=1nXk)
    的分布函数的极限。

    可以证明,满足一定条件,上述极限分布是标准正态分布

  • 定义:和的分布收敛于正态分布这一类定理都叫做中心极限定理。

  • 定理1:独立同分布下的中心极限定理

    X 1 , X 2 , . . . X_1,X_2,... X1,X2,...是独立同分布的随机变量序列,且 E ( X i ) = μ . D ( X i ) = σ 2 ,   i = 1 , 2 , . . . , E(X_i)=\mu.D(X_i)=\sigma^2,\space i=1,2,..., E(Xi)=μ.D(Xi)=σ2, i=1,2,...,,则
    l i m n → ∞ P { ∑ i = 1 n X i − n μ σ n ≤ x } = ∫ − ∞ x 1 2 π e − t 2 / 2 d t lim_{n\to \infty}P\{\frac{\sum_{i=1}^nX_i-n\mu}{\sigma \sqrt n \leq x}\}=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{-t^2/2}dt limnP{ σn xi=1nXinμ}=x2π 1et2/2dt
    它表明,当n充分大时,n个具有期望和方差的独立同分布的随机变量近似服从正态分布。

    虽然在一般情况下,很难求出 X 1 + X 2 + . . . + X n X_1+X_2+...+X_n X1+X2+...+Xn的分布的确切形式,但当n很大时,可以求出近似分布。二项分布的正态近似(棣莫佛-拉普拉斯定理)是上述定理的特殊情况。

    定理(棣莫佛-拉普拉斯定理)

    设随机变量 Y n Y_n Yn服从参数 n , p ( 0 < p < 1 ) n,p(0n,p(0<p<1)的二项分布,则对任意x,有
    l i m n → ∞ P { Y n − n p n p ( 1 − p ) ≤ x } = ∫ − ∞ x 1 2 π e x p ( − t 2 2 ) d t lim_{n\to \infty}P\{\frac{Y_n-np}{\sqrt{np(1-p)}}\leq x\}=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}exp(-\frac{t^2}{2})dt limnP{ np(1p) Ynnpx}=x2π 1exp(2t2)dt
    当n很大, 0 < p < 1 00<p<1是一个定值时,或者说, n p ( 1 − p ) np(1-p) np(1p)也不太小时,二项变量 Y n Y_n Yn的分布近似正态分布 N ( n p , n p ( 1 − p ) ) N(np,np(1-p)) N(np,np(1p)).

    实用中, n ≥ 30 n\geq30 n30, n p ≥ 10 np\geq 10 np10时,正态近似的效果较好

  • 意义:中心极限定理不仅提供了计算独立随机变量之和的近似概率的简单方法,而且有助于解释为什么很多自然群体的经验频率呈现出钟形曲线这一事实

你可能感兴趣的:(概统,机器学习,概率论)