刘嘉概率论22讲《七, 概率是对发生频率的计算》

频率就是某个随机时间在整体事件中出现的比例。

一个随机事件出现的次数除以整体事件的次数,得到的值就是这个随机事件发生的频率

频率法就认为,在有足够多的数据的情况下,随机事件发生的频率会无限接近它真实的概率。

比如,很多人认为飞机是很危险的交通工具,到底有多危险?衡量飞机的危险性,最直接的方法就是计算失事率嘛,我们用过去这么多年飞机失事的次数,除以飞机总的飞行次数,这个飞机失事的频率,就是未来飞机失事的概率。

再比如,预测江苏考生明年高考上清华的概率,我们把历史的数据收集来,对于每一年来说,用清华大学在江苏省的录取人数,除以那一年整个江苏的考生人数,就是录取率,把最近几年的录取率平均一下,就可以大致得出一名江苏考生明年高考考上清华的概率。

总之,在频率法眼中,概率是可以靠随机事件发生的频率来计算出来的。

频率法理解这个师姐的底层逻辑是,一个随机事件的发生,是存在一个真实的,客观的概率的。只要我们做的试验足够多,或者掌握的数据足够多,计算出来随机事件发生的频率,就可以无限接近这个真实的,客观的概率的。

著名数学家雅各布他花了20年事件,证明了这个不言自明的结论,随着实验数据不断累计,频率和概率的差距会越来越小,也就是说,只要重复的实验或者观测的数据足够多,随机事件发生的频率就会无限接近他的概率,这就是我们常说的”大数定律“

我们说大数定律的时候会加一句限定”重复的次数足够多,累计的数据足够多“

可问题是,足够多到底是多少呢

数学家们设置了两个概念,一个叫”精度误差“另一个叫”置信度“

大数定律告诉我们,数据或者实验越多,频率就会越接近概率,当然,只是接近,在真实概率上下浮动,这种浮动范围就是”精度误差“

比如针对+-3%的误差率,我们做一百组实验,或者统计学上叫一百组样本,如果有95组样本算出来的概率正好在这个精度误差范围内,我们称之为置信度 95%

通过两个限定,容忍一定错误的发生,我们在用频率度量概率时,可以大幅减少实验的次数或者采集的数据量

比如,99.9%的置信度和2%的精度误差,就可以把重复的次数从无限降低到7000次左右,如果把置信度降低到95%,重复次数可以降低到2500次左右,如果把精度误差从2%降到3%,实验次数就可以降到1000次左右。

现实中,几乎所有的数据调查和统计结果,一方面,都是基于用频率来测量概率这个底层逻辑,另一方面,也都要进行相应程度的妥协。

你可能感兴趣的:(刘嘉概率论22讲《七, 概率是对发生频率的计算》)