【4】机器学习之坚如磐石:大数定理和中心极限定理

泰勒展开式


作者:张雨萌
链接:https://www.zhihu.com/question/22913867/answer/34376453
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

试图从另一个角度给出一个还算启发性的答案。

题主学过微积分的泰勒展开吧,对一个连续可导的函数,在一点局部我们认为这个函数可以用线性函数来拟合,从而有
f(x)\approx f(x_0)+f'(x_0)(x-x_0)+o(x-x_0).
这里面 f(x_0) 是零阶项, f'(x_0)(x-x_0)是一阶修正, o(x-x_0)是高阶小量。

与此对应,我们可以试着对随机变量的进行“局部的泰勒展开”。假设 X_1,X_2,\dots是独立同分布的变量,那么根据大数定律和中心极限定理,我们有
X_1+X_2+\cdots+X_n\approx n\cdot\mathbb{E} X_1+\sqrt{n}\,\mathrm{std}(X_1)\cdot \mathcal{N}(0,1)+o_p(\sqrt{n}\,\mathrm{std}(X_1)).
其中期望 \mathbb{E}X_1对应 f(x_0) ,标准差 \mathrm{std}(X_1)对应一阶导 f'(x_0),标准正态分布 \mathcal{N}(0,1)对应线性函数 x-x_0o_p(\sqrt{n}\,\mathrm{std}(X_1))是概率意义下的高阶小量。

通过这个类比我们可以这样理解大数定律和中心极限定理:
1、大数定律和中心极限定理可以看做随机变量的零阶和一阶“泰勒展开”,其中大数定律是随机变量的“零阶估计”,中心极限定理是在大数定律成立下的“一阶导数”,在极限下高阶小量可忽略。
2、大数定律负责给出估计——期望,中心极限定理负责给出大数定律的估计的误差——标准差乘以标准正态分布。
3、通过泰勒展开我们可以对中心极限定理的应用范围有一个直观的估计。为了使泰勒展开成立,我们假设了高阶小量 o_p(\sqrt{n}\,\mathrm{std}(X_1))在取平均(除以 n后)是可以忽略的。为了使这一点成立,我们至少需要样本量和方差在同一量级上或者更小。
4、其实我们还可以进行更高阶的展开,貌似三阶展开对应的统计量叫做skewness,wiki上常用分布的词条都会给出这一数值。不过实际应用中中心极限定理已经足够,所以通常也就不需要了。


作者:煦超
链接:https://www.zhihu.com/question/22913867/answer/32711413
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

教授这周刚讲完这两个定理。先说中心极限定理。
中心极限定理:
大量相互独立的随机变量,其均值(或者和)的分布以正态分布为极限(意思就是当满足某些条件的时候,比如Sample Size比较大,采样次数区域无穷大的时候,就越接近正态分布)。而这个定理amazing的地方在于,无论是什么分布的随机变量,都满足这个定理。

比如现在有一个 奇形怪状的六面骰子,并且六面上的点数分别为1,1,2,3,3,5。
我们现在开始掷这个骰子(可视为一个随机过程),然后记录下每次朝上的点数(每次扔骰子可视为一个随机变量)。先扔6次好了。
第一次:
S_{1} = [ 1,1,1,1,2,5]
那么第一次结果的均值
\bar{S} _{1} = \frac{11}{6}

然后你再掷五次,分别求得每次结果的均值,于是你得到了
\bar{S}_{1} ,\bar{S}_{2},\bar{S}_{3}, \bar{S}_{4},\bar{S}_{5},\bar{S}_{6}
现在神奇的地方是,这六个值的分布,有点像是正态分布。

然后你再继续疯狂的掷这个奇形怪状的骰子,掷了n次,并且分别对每次的结果都求了均值,这时候你得到了
\bar{S}_{1} ,\bar{S}_{2},\bar{S}_{3},...\bar{S}_{n}
当n越大,这n个值的分布就越接近正态分布,而当n趋向正无穷时,这无穷个均值的分布就是正态分布了!并且!这还没有结束!!
并且!这个正态分布的均值 \mu投掷奇形怪状骰子并记录朝上的点数这个随机过程的均值是一!样!的!
这样,因为我们没有办法得到这个奇形怪状骰子的分布函数,就没有办法直接通过求期望的公式得到这个随机过程的期望。而运用中心极限定理,我们就能够得到这个随机过程的期望了。

大数定理
简单的可以描述为,如果有一个随机变量X,你不断的观察并且采样这个随机变量,得到了n个采样值, X_{1} , X_{2} , X_{3}....X_{n},然后求得这n个采样值得平均值 \bar{X_{n}},当n趋向于正无穷的时候,这个平均值就收敛于这个随机变量X的期望。
公式为
\lim_{n \rightarrow \infty } \frac{1}{n}\sum_{i=1}^{n}{X_{i}} =\mu
举个例子。
比如你有一个盒子,盒子里面有100个硬币,你每次摇晃盒子然后数一数有多少硬币正面朝上。很容易算出这个随机变量的期望为50。
第一次摇,数出有55个硬币正面朝上, \bar{X_{n}}=55
第二次摇,数出有65个硬币正面朝上, \bar{X_{n}}=(55+65)/2=60
第三次摇,数出有70个硬币正面朝上, \bar{X_{n}}=(55+65+70)/3=
…………
当你摇的次数足够多(无数次)时,最终这个平均值 \bar{X_{n}}就会等于50。

你可能感兴趣的:(【4】机器学习之坚如磐石:大数定理和中心极限定理)