一 统计学习理论前奏:大数定理的发展脉络

      大数定理是概率论中的一个很重要的结论,大意是说如果随机变量相互独立且服从相同的分布,那么对随机变量进行抽样,样本的均值必然越来越接近于随机变量的均值。这个定理是整个统计学中抽样调查理论的根基。

      大数定理版本非常之多,本文主要讲述其发展证明的一个脉络,在一个特殊条件下被证明的定理,通常弱化条件或者加强结论是改进这个定理的两个方向。弱化条件可以扩大适用范围,而加强结论可能产生新的数学分支。

      大数定理系列一般是弱化条件而不断发展的,加强结论的发展就是发现了中心极限定理。
      最早的大数定理是贝努利大数定理,贝努利大数定理长这样:


贝努利大数定理: nA n 次重复实验中时间A的发生次数, p 是每次试验中,事件A发生的概率,则对于任意的 ε>0

limnP(nAnp>ε)=0

如果你不想看这么多公式,这块可以忽略

左侧估计
比右侧估计难得一些,下面估计左侧,即考察 k<npnε

p^=P(nA/np<ε)=P(nA<npnε)
q=pεm=nq
注意到
Ci+1npi+1(1p)ni1Cinpi(1p)ni=p(ni)(1p)(i+1)>1,im<np

有: 0<p^=mi=0Cinpi(1p)ni<mCmnpm(1p)nm
故有:
limnp^<limnmCmnpm(1p)nm=limnmpm(1p)nmqm(1q)nm=limnnq(pq(1p)1qqq(1q)1q)n

s=pq(1p)1qqq(1q)1q ,容易估计到 s<1,qp ,所以有:
limnp^<limnnqsn=0limnp^=0

同理,对于右侧估计也有
limnP(pnA/n<ε)=0

贝努利大数定理,是数理统计的一个里程碑,回过头来看贝努利大数定理:
1. p只是一个随机变量分布的参数(看不见),而 nA/n 则可以通过实验测量(看得见);
2. 定理告诉我们, nA/n 与p在多次实验中,以概率1逼近,这是概率理论由理论走向应用了;
3. 只需要简单改造,就可以将定理推广到离散随机变量,离散随机变量的概率都可以通过重复实验获得;

同时也考察一下贝努利大数定理大数定理的限制:
1、重复实验,将每一次实验看成随机的变量,实际上要求随机变量独立同分布,独立同分布记为 iid .
2、随机变量必须是离散,当然我们将连续变量进行分割,也可以转换成离散随机变量;
3、证明过程中用到了贝努利分布,也就是说随机变量分布类型完全知晓。

贝努利大数定理是一个重大的突破,数学家当然想继续发展这个理论,看看能不能有所拓展,最想做的当然是把大数定理从离散变量推广到连续变量。切比雪夫大数定理正是做了这个推广。在介绍大数定理之前,先介绍一下切比雪夫不等式。


  切比雪夫不等式:已知 ε>0,k>0 ,则有 P(Xε)EXk/εk

X 是连续随机变量,并且不等式成立于X的具体分布没有关系。
不等式用到了k阶矩。
证明也比较简单: εk1(Xε)Xk ;两边取期望即可:
E(εk1(Xε))=εkP((Xε))E(Xk)


我们只需要简单对上式做个变换:设 Xi,i=1..n 独立同分布,令 E(Xi)=u,D(Xi)=σ2
Y=1nni=1(XiE(X1)) ,则有:

P(Yε)=P(1ni=1n(Xiu)ε)E1ni=1n(XiE(X1))2/ε2=1nσ2/ε2
得到 P(ni=1Xinuε)1nσ2/ε2
两边对n取极限: limnP(ni=1Xinuε)limn1nσ2/ε2=0
从而,证明了切比雪夫大数定理。

切比雪夫大数定理:设 Xiiid,i=1..n ,且有 E(Xi)=u;D(Xi)=σ2
则有: limnP(ni=1Xinuε)=0

回看切比雪夫大数定理:

贝努利大数定理是它的一个特例,只需要定义如下随机变量即可。

xi={10,A,A


给定任意的一个函数 g(x),Yi=g(Xi),i=1..n Xiiid ,则 Yiiid ,
只要 E(Y)D(Y) ,则 Yi 也服从大数定理。


对随机变量的要求大大放松,可以是任意的随机变量,只要求有1阶矩和2阶矩,当然若没有2阶矩,那么要求一阶矩绝对收敛,这是弱大数定理。 还要求变量独立同分布。


      事情发展到这一步,已经很完美了,但是数学家们是不会满足的,能不能去掉2阶矩?答案就在切比雪夫不等式里面: P(Xε)EXk/εk 我们只需要令 k=1 即可,但是要求变为 EX< 。这个大数定理称为弱大数定理。

弱大数定理:设 Xiiid,i=1..n ,且有 E(|Xi|) 则有:

limnP(1ni=1nXiE(X1)ε)=0

有弱大数定理,就有强大数定理,那么强在什么地方呢?我们先要介绍两个新的概念:
依概率收敛(WLLN)
如果随机变量序列 {Xn} 满足对任意的 ε>0 ,存在一个随机变量 X 使得 limnP(XnXε)=0 ,则称随机变量序列 {Xn} 依概率收敛于X,记为 XnpX

几乎必然收敛
如果随机变量序列 {Xn} 满足满足 P(limnXn=X)=1 ,则称随机变量序列 {Xn} 几乎必然收敛于X,记为 Xna.s.X

      这两个收敛看起来很相似,事实上只是对求极限从外边挪到了里面,但是这里确实有细微的不同。细微的差别在于依概率收敛允许在一些事件 ω limnXn(ω)X(ω) ,只要全部这些事件出现的概率为零即可,也就是说对于连续随机变量而言,允许概率密度不相等的事件时不时的发生,允许有多少呢?可以是可列无穷多个;
      在这请大家注意,概率为零不代表事件不会发生,典型的连续型随机变量,在某个值上发生的概率为零,但是概率密度非零,该事件仍然会发生。
      而几乎必然收敛要求在每一个事件上都有 limnXn(ω)=X(ω) ,要求更严格。
      详细讨论涉及到集合的下极限、下极限,还要了解一些测度论的有关知识,这里就带过。

下面介绍强大数定理。
强大数定理(SLLN)
Xiiid,i=1..n ,且有 E(|Xi|) 则有:

1ni=1nXia.s.E(X1)

      我们回过头来看强大数定理和弱大数定理,结论上有强弱,要求是一样的,除独立同分布以外,还要求 E(|Xi|) ,这个要求比 D(Xi)=σ2 要弱一点,但是能不能更弱一点呢?当然我们不能弱到连 E(X) 都没有,大数定理就少了用武之地,用实验去估计一个发散的参数是不可能的,谁能测量一个无穷大的东西呢?


事实上,条件可以弱到只要求期望存在 |E(Xi)| 并且满足 Xiiid,i=1..n ,证明的时候需要用到新的数学方法,那就是特征函数,复变函数的一个特别应用。
辛钦大数定理
Xiiid,i=1..n ,且有 |E(Xi)| 则有:

1ni=1nXipE(X1)

相比较弱大数定理,条件弱化了,但是结论是一样的;
相比较强大数定理,条件弱化了,但是结论也弱化了,各有千秋,但是弱化条件更好,应为实用范围更广了。
这里就不给出辛钦大数定理的证明了,因为这个方法还可以证明一个条件更弱的大数定理。

      直到目前为止,我们的大数定理要求变成了,随机变量独立同分布,而且期望有限。还能不能更弱一点,博主实在没有找到相关资料(当然也没有仔细找)。


      下面博主给出一个条件更弱的大数定理。
      我们先分析一下随机变量的矩:
      通常如果变量 Xi,i=1,2,3iid , 且, Xi,E(|Xi|)< 则有 E(iXi)=iE(Xi) iid 即独立同分布。那么我们把这个要求弱化 一点,不要求同分布只要求相互独立。则有下面的引理。

引理 : 若随机变量 Xii=1,2,3 相互独立且, Xi,|E(Xi)|< ,则有 E(ni=1Xi)=ni=1E(Xi)

这个引理,随便翻开一本初等的概率就可以找到,高等的可能找不到,太基础了。

强辛钦大数定理:若随机变量 Xi;i=1,2,3 相互独立且, Xi,E(Xi)=ui|ui|< ,则有

limnP(|1ni=1n(Xiui)|>ε)=0,ε>0

证明: 设随机变量 Xiui 的特征函数为: φi(t),i=1,2,3 ,
则有 (Xiui)/n 的特征函数为 φi(t/n),φi(t/n)=1+o(t/n)
Yn=ni=1Xiuin 的特征函数为:

Gn=ni=1φi(t/n)=ni=1(1+o(t/n))ln(Gn)=ni=1ln(1+o(t/n))=ni=1o((tn)2)=o(t2n)

则有: ln(G(t))=limn(lnGn(t))=0G(t)=1

随机变量 Y=limnYn 的特征函数为 G(t)=1
得到 limnYn 的分布函数为: F(x)={0,1,x<0x0
由此可得:
limnP(|1nni=1(Xiui)|>ε)=0,ε>0


总结
1、本文从贝努利大数定理出发,详细讨论了切比雪夫大数定理,弱大数定理,强大数定理,辛钦大数定理,强辛勤大数定理。
2、大数定理要求也从具体的分布的离散型分布,弱化到任何类型的分布,只限制分布的二阶矩,再弱化到一阶的绝对收敛,最后弱化到只要期望存在,每一步的弱化,大大扩展的器应用范围。
3、证明方法也从经典概率估计,到利用切比雪夫不等式,最后到特征函数,方法断升级,每次发展都是质的飞越;
4、最后,对于独立同分布的要求,弱化到随机变量独立即可,而不要求同分布;
5、注意:随机变量之间的独立性要求不能弱化,可以举反例证明之。
      大数定理发展结束了吗?还没有,大数定理已经被搬到了泛函分析,复概率上面,而其中最有意思的是在泛函分析上的大数定理,思想更丰富、更深刻,在机器学习领域大放异彩。

你可能感兴趣的:(机器学习)