大数定理是概率论中的一个很重要的结论,大意是说如果随机变量相互独立且服从相同的分布,那么对随机变量进行抽样,样本的均值必然越来越接近于随机变量的均值。这个定理是整个统计学中抽样调查理论的根基。
大数定理版本非常之多,本文主要讲述其发展证明的一个脉络,在一个特殊条件下被证明的定理,通常弱化条件或者加强结论是改进这个定理的两个方向。弱化条件可以扩大适用范围,而加强结论可能产生新的数学分支。
大数定理系列一般是弱化条件而不断发展的,加强结论的发展就是发现了中心极限定理。
最早的大数定理是贝努利大数定理,贝努利大数定理长这样:
贝努利大数定理:设 nA 是 n 次重复实验中时间A的发生次数, p 是每次试验中,事件A发生的概率,则对于任意的 ε>0 有
如果你不想看这么多公式,这块可以忽略
左侧估计
比右侧估计难得一些,下面估计左侧,即考察 k<np−nε 。
p^=P(nA/n−p<−ε)=P(nA<np−nε)令 q=p−ε,m=nq
注意到
Ci+1npi+1(1−p)n−i−1Cinpi(1−p)n−i=p∗(n−i)(1−p)(i+1)>1,∀i≤m<np
有: 0<p^=∑mi=0Cinpi(1−p)n−i<mCmnpm(1−p)n−m
故有:
limn→∞p^<limn→∞mCmnpm(1−p)n−m=limn→∞mpm(1−p)n−mqm(1−q)n−m=limn→∞nq(pq(1−p)1−qqq(1−q)1−q)n
令 s=pq(1−p)1−qqq(1−q)1−q ,容易估计到 s<1,∀q≠p ,所以有:
limn→∞p^<limn→∞nqsn=0⇒limn→∞p^=0
同理,对于右侧估计也有limn→∞P(p−nA/n<−ε)=0
贝努利大数定理,是数理统计的一个里程碑,回过头来看贝努利大数定理:
1. p只是一个随机变量分布的参数(看不见),而 nA/n 则可以通过实验测量(看得见);
2. 定理告诉我们, nA/n 与p在多次实验中,以概率1逼近,这是概率理论由理论走向应用了;
3. 只需要简单改造,就可以将定理推广到离散随机变量,离散随机变量的概率都可以通过重复实验获得;
同时也考察一下贝努利大数定理大数定理的限制:
1、重复实验,将每一次实验看成随机的变量,实际上要求随机变量独立同分布,独立同分布记为 iid .
2、随机变量必须是离散,当然我们将连续变量进行分割,也可以转换成离散随机变量;
3、证明过程中用到了贝努利分布,也就是说随机变量分布类型完全知晓。
贝努利大数定理是一个重大的突破,数学家当然想继续发展这个理论,看看能不能有所拓展,最想做的当然是把大数定理从离散变量推广到连续变量。切比雪夫大数定理正是做了这个推广。在介绍大数定理之前,先介绍一下切比雪夫不等式。
切比雪夫不等式:已知 ε>0,k>0 ,则有 P(∣X∣≥ε)≤E∣X∣k/εk
X 是连续随机变量,并且不等式成立于X的具体分布没有关系。
不等式用到了k阶矩。
证明也比较简单: εk1(∣X∣≥ε)≤∣X∣k ;两边取期望即可:
E(εk1(∣X∣≥ε))=εkP((∣X∣≥ε))≤E(∣X∣k)
我们只需要简单对上式做个变换:设 Xi,i=1..n 独立同分布,令 E(Xi)=u,D(Xi)=σ2 ,
令 Y=1n∑ni=1(Xi−E(X1)) ,则有:
P(∣Y∣≥ε)=P(∣1n∑i=1n(Xi−u)∣≥ε)≤E∣1n∑i=1n(Xi−E(X1))∣2/ε2=1nσ2/ε2得到 P(∣∑ni=1Xin−u∣≥ε)≤1nσ2/ε2
两边对n取极限: limn→∞P(∣∑ni=1Xin−u∣≥ε)≤limn→∞1nσ2/ε2=0
从而,证明了切比雪夫大数定理。
切比雪夫大数定理:设 Xi∼iid,i=1..n ,且有 E(Xi)=u≤∞;D(Xi)=σ2≤∞
则有: limn→∞P(∣∑ni=1Xin−u∣≥ε)=0
回看切比雪夫大数定理:
贝努利大数定理是它的一个特例,只需要定义如下随机变量即可。
xi={10,A发生,A不发生
给定任意的一个函数 g(x),Yi=g(Xi),i=1..n 若 Xi∼iid ,则 Yi∼iid ,
只要 E(Y)≤∞,D(Y)≤∞ ,则 Yi 也服从大数定理。
对随机变量的要求大大放松,可以是任意的随机变量,只要求有1阶矩和2阶矩,当然若没有2阶矩,那么要求一阶矩绝对收敛,这是弱大数定理。 还要求变量独立同分布。
事情发展到这一步,已经很完美了,但是数学家们是不会满足的,能不能去掉2阶矩?答案就在切比雪夫不等式里面: P(∣X∣≥ε)≤E∣X∣k/εk 我们只需要令 k=1 即可,但是要求变为 E∣X∣<∞ 。这个大数定理称为弱大数定理。
弱大数定理:设 Xi∼iid,i=1..n ,且有 E(|Xi|)≤∞ 则有:
有弱大数定理,就有强大数定理,那么强在什么地方呢?我们先要介绍两个新的概念:
依概率收敛(WLLN):
如果随机变量序列 {Xn} 满足对任意的 ε>0 ,存在一个随机变量 X 使得 limn→∞P(∣Xn−X∣≥ε)=0 ,则称随机变量序列 {Xn} 依概率收敛于X,记为 Xn→pX 。
几乎必然收敛
如果随机变量序列 {Xn} 满足满足 P(limn→∞Xn=X)=1 ,则称随机变量序列 {Xn} 几乎必然收敛于X,记为 Xn→a.s.X 。
这两个收敛看起来很相似,事实上只是对求极限从外边挪到了里面,但是这里确实有细微的不同。细微的差别在于依概率收敛允许在一些事件 ω 上 limn→∞Xn(ω)≠X(ω) ,只要全部这些事件出现的概率为零即可,也就是说对于连续随机变量而言,允许概率密度不相等的事件时不时的发生,允许有多少呢?可以是可列无穷多个;
在这请大家注意,概率为零不代表事件不会发生,典型的连续型随机变量,在某个值上发生的概率为零,但是概率密度非零,该事件仍然会发生。
而几乎必然收敛要求在每一个事件上都有 limn→∞Xn(ω)=X(ω) ,要求更严格。
详细讨论涉及到集合的下极限、下极限,还要了解一些测度论的有关知识,这里就带过。
下面介绍强大数定理。
强大数定理(SLLN)
设 Xi∼iid,i=1..n ,且有 E(|Xi|)≤∞ 则有:
我们回过头来看强大数定理和弱大数定理,结论上有强弱,要求是一样的,除独立同分布以外,还要求 E(|Xi|)≤∞ ,这个要求比 D(Xi)=σ2≤∞ 要弱一点,但是能不能更弱一点呢?当然我们不能弱到连 E(X) 都没有,大数定理就少了用武之地,用实验去估计一个发散的参数是不可能的,谁能测量一个无穷大的东西呢?
事实上,条件可以弱到只要求期望存在 |E(Xi)|≤∞ 并且满足 Xi∼iid,i=1..n ,证明的时候需要用到新的数学方法,那就是特征函数,复变函数的一个特别应用。
辛钦大数定理
设 Xi∼iid,i=1..n ,且有 |E(Xi)|≤∞ 则有:
相比较弱大数定理,条件弱化了,但是结论是一样的;
相比较强大数定理,条件弱化了,但是结论也弱化了,各有千秋,但是弱化条件更好,应为实用范围更广了。
这里就不给出辛钦大数定理的证明了,因为这个方法还可以证明一个条件更弱的大数定理。
直到目前为止,我们的大数定理要求变成了,随机变量独立同分布,而且期望有限。还能不能更弱一点,博主实在没有找到相关资料(当然也没有仔细找)。
下面博主给出一个条件更弱的大数定理。
我们先分析一下随机变量的矩:
通常如果变量 Xi,i=1,2,3…iid , 且, ∀Xi,E(|Xi|)<∞ 则有 E(∑iXi)=∑iE(Xi) 。 iid 即独立同分布。那么我们把这个要求弱化 一点,不要求同分布只要求相互独立。则有下面的引理。
引理 : 若随机变量 Xii=1,2,3… 相互独立且, ∀Xi,|E(Xi)|<∞ ,则有 E(∑ni=1Xi)=∑ni=1E(Xi)
这个引理,随便翻开一本初等的概率就可以找到,高等的可能找不到,太基础了。
强辛钦大数定理:若随机变量 Xi;i=1,2,3… 相互独立且, ∀Xi,E(Xi)=ui,|ui|<∞ ,则有
证明: 设随机变量 Xi−ui 的特征函数为: φi(t),∀i=1,2,3… ,
则有 (Xi−ui)/n 的特征函数为 φi(t/n),φi(t/n)=1+o(t/n) 。
Yn=∑ni=1Xi−uin 的特征函数为:
Gn=∏ni=1φi(t/n)=∏ni=1(1+o(t/n))ln(Gn)=∑ni=1ln(1+o(t/n))=∑ni=1o((tn)2)=o(t2n)
则有: ln(G(t))=limn→∞(lnGn(t))=0⇒G(t)=1
随机变量 Y=limn→∞Yn 的特征函数为 G(t)=1 ,
得到 limn→∞Yn 的分布函数为: F(x)={0,1,x<0x≥0
由此可得:
limn→∞P(|1n∑ni=1(Xi−ui)|>ε)=0,∀ε>0
总结:
1、本文从贝努利大数定理出发,详细讨论了切比雪夫大数定理,弱大数定理,强大数定理,辛钦大数定理,强辛勤大数定理。
2、大数定理要求也从具体的分布的离散型分布,弱化到任何类型的分布,只限制分布的二阶矩,再弱化到一阶的绝对收敛,最后弱化到只要期望存在,每一步的弱化,大大扩展的器应用范围。
3、证明方法也从经典概率估计,到利用切比雪夫不等式,最后到特征函数,方法断升级,每次发展都是质的飞越;
4、最后,对于独立同分布的要求,弱化到随机变量独立即可,而不要求同分布;
5、注意:随机变量之间的独立性要求不能弱化,可以举反例证明之。
大数定理发展结束了吗?还没有,大数定理已经被搬到了泛函分析,复概率上面,而其中最有意思的是在泛函分析上的大数定理,思想更丰富、更深刻,在机器学习领域大放异彩。