刘嘉概率论22讲《八, 局部频率不是整体概率》

大数定律证明了整体的确定性

雅各布用了20年时间证明了大数定律,准确的说,他证明的是弱大数定律

就是说,实验数量越多,频率接近真实概率的可能性就越大,而不是百分百一定接近。

雅各布的伟大在于,他找到了对抗局部随机性的办法,用频率构建起了确定的整体概率。通过他的证明我们知道,不管局部怎么随机,整体概率稳定的可能性是非常大的。

但是整体概率稳定的可能性很大和一定稳定,还是有差别的,只有一定,100%的稳定,才是真正的确定性。

一个世纪前,苏联科学家概率论的先驱,柯尔莫哥洛夫再雅各布的基础上,做出了更加严密的证明,也就是 强大数定律

他通过计算证明,随着数据越来越多,频率接近概率不仅是可能性越来越大,二十几乎一定。也就是说,随着数据越来越多,频率最终一定回接近真实概率。

我们先用弱大数定律找到整体,又用强大数定律确定了整体一定是稳定的。大数定律又被称为“黄金定理”它让我们真正能用整体的确定性来对抗局部的随机性。

有了整体的随机性,我们就能用大数定律搞定这个世界了吗?

很遗憾,不是的。

因为大数定律起作用有个限制条件,只有再数据无限的情况下,随机事件发生的频率才等于他的概率。

现实中没有无限这个概念,无论扔多少次硬币,都是有限的,无论记录多少次数据,都是有限的,准确的说,现实中所有的事情都是有限的,我们记录的所有频率,都只是局部频率。

问题是,只有数据量足够多的时候,局部频率才会接近真实概率,当数据量很少的时候,一件事发生的频率可能和他真实概率相差很大。

很多人认为连续抛100次硬币是正面,下次是反面的概率会更大,只有这样才能补偿不平衡的状态,其实这是错的,整体不需要通过补偿来对局部产生作用,大数定律并不通过补偿来实现。

大数定律不会对已经发生的情况进行补偿,二十利用大量正常的数据,消弱那部分异常数据的影响,正常数据越多,异常数据就越小,小到可以忽略不计。

整体通过均值回归对局部起作用。

就是说,如果一个数据和他的正常状态偏差很大,那么它向正常状态回归的概率就会变大,比如,身材很高的人,他的孩子往往不如他高,怎么理解这种现象呢?

其实这种现象更应该叫做“趋均值回归”趋向均值的方向回归,所以他产生的作用的对象,是那些特殊的,异常的,极端的数据。这些异常的极端的数据,是没法长期持续的,所以回归正常值的概率会变大。

总之,大数定律不需要补偿,而是通过均值回归,通过产生大量正常数据,削弱之前异常数据的影响。

举例,我们常说的三十年河东,三十年河西,否极泰来,根据均值回归理论,三十年河西之后,不一定是三十年河西,否极之后可能是泰来也可能是回到运气不好不坏的状态,都有可能。

你可能感兴趣的:(刘嘉概率论22讲《八, 局部频率不是整体概率》)