2020-08-09

11 概率分布:认识现实世界的数学模型

随机变量:把随机事件可能的结果抽象成一个数字,每个数字对应一个概率,这个随机变化的数字。

概率分布:把随机变量所有的结果和它对应的概率全部统计出来

概率分布的作用:通过从整体上描述一个随机事件的所有可能结果和对应概率分布情况,从总体上把握这件事的基本轮廓。

数学家解决问题的方式是抽象

概率分布模型是我们对现实规律的抽象,正态分布、幂律分布都是这样的模型,分别代表一种概率分布规律。


12 正态分布:最简单却最重要的概率分布

高斯使用到正态分布计算出谷神星(人类发现的第一颗矮行星)的运行轨道。

性质一:均值就是期望

在正态分布中,平均值代表随机事件的价值。

性质二:极端值很少

性质三:标准差决定胖瘦

eg:电脑开机时间打败了全国97%的用户,就是通过正态分布得到的,随机抽取一部分用户的开机数据,算出均值和标准差,就可以确定出一条正态分布曲线。

一个标准差覆盖68.26%的数据,两个覆盖95.44%的数据,以此类推

不同正态分布的分析比较:

第一,只有均值不同,能比较好坏

第二,只有标准差不同,能比较波动

eg:男女智商均值相同,但男性智商波动更大,在智商超群和智商堪忧的人中,男性数量多于女性

第三,均值和标准差都不同,能比较专业和业余

专业的均值更高,标准差更小,业余则相反。


13 中心极限定理:正态分布是概率分布的神

(1)合法性:中心极限定理提供保证

中心极限定理核心的数学性质——大量独立的随机变量相加,无论各个随机变量的分布是怎样的,它们相加的结果必定会趋向于正态分布。换句话说,正态分布是必然产生的。

中心极限定理是因,正态分布是果。因为中心极限定理存在,所以正态分布才必然正确。

正态分布公式——高斯

中心极限定理——拉普拉斯

(2)正统性:正态分布建立了一套稳定的秩序,就像参照系一样,对所有的事物施加影响。

在统计学中,当我们不知道某个随机事件服从什么分布的时候,最常见的方法就是假设它服从正态分布,然后再用数据验证。

一方面,是由于正态分布非常常见,所以假设一个随机事件服从正态分布,比假设其他分布的成功率更高。

另一方面,是因为正态分布能像神一样,给我们指明分析的方向。

eg:如果验证后发现,这个随机事件不服从正态分布,那它就一定不满足正态分布背后的中心极限定理。而不满足中心极限定理,要么是它的影响因素不够多,要么是各种影响因素不相互独立,要么是某种影响因素的影响力太大等等……这时候,接下来的研究也就有了明确的方向。

(3)主宰性

第一,正态分布普遍存在

第二,所有分布不断叠加后最后都会变成正态分布

第三,正态分布是世界的宿命

“熵最大原理”:在一个孤立的系统中,熵总是在不断增大。

正态分布是所有已知均值和方差的分布中,信息熵最大的一种分布。


14 幂律分布:给人带来希望的魔鬼

无标度:幂律分布唯一的数学特征。

“二八法则”:幂律分布的最直观表现。

幂律分布

横坐标,代表随机变量的取值;纵坐标,代表发生的概率。

在随机变量中,越小的数值,出现的概率越大;越大的数值,出现的概率则越小。

在任何观测尺度下,幂律分布都呈现同样的分布特征。

一般的分布都会有个尺度范围,在这个范围内服从这个分布,超过这个尺度可能就不服从这种分布了。而幂律分布没有尺度的限制,不管截取任何一个部分,都仍然呈现幂律分布的特征。

eg:图书销量是服从幂律分布的,最畅销那本书的销量在前10名销量中占的比例,和前10名的销量在前100名的销量中占的比例,和前100名在前1000名的总销量中占的比例,大体都是相同的。

第一,幂律分布让平均数失去意义

第二,幂律分布让原本不会发生的极端事件发生

在数学上,这个叫“长尾”,也叫肥尾、厚尾。简单说就是,虽然极端数据出现的概率很低,但这个概率永远不会趋近于0,永远不会小到可以忽略不计。

在正态分布里,数据非常集中,非常极端的数据几乎不可能出现,可以直接忽略不不计。而在幂律分布里,再极端的数据都有出现的可能。

第三,幂律分布完全不可预测

eg:著名的“沙堆模型”,在平台上不断添加沙粒,慢慢形成一个沙堆。随着沙堆高度的增加,新添加的沙粒会带动沙堆表面其他沙粒滚落,产生所谓的“沙崩”。统计沙崩的规模和发生的频率,科学家发现它服从幂律分布。

所有物理知识我们都掌握,而且能用计算机跟踪每一粒沙子的位置,但仍然找不到沙堆崩塌的原因。既不知道在什么条件下,再放一粒沙子就会导致沙崩,也无法预测这粒沙子导致的沙崩规模会有多大。

幂律分布产生的原因,目前没有统一答案。

在从有序到无序这个熵减过程中,幂律分布必然发生。

虽然幂律分布像魔鬼一样狡诈、难以预料,但它可能是我们对抗熵增的必然选择,是每个系统从无序到有序,从混沌到清晰,从未知世界到规律世界的必经之路。幂律分布存在的地方,看似凶险,却恰恰是对抗熵增,对抗死寂,对抗死亡的角斗场,是我们的希望之光。

在自然界与日常生活中,包括地震规模大小的分布、月球表面上月坑直径的分布、行星间碎片大小的分布、太阳耀斑强度的分布、计算机文件大小的分布、战争规模的分布、人类语言 中单词频率的分布、大多数国家姓氏 的分布、科学家撰写的论文数的分 布、论文被引用的次数的分布、网页 被点击次数的分布、书籍及唱片的销 售册数或张数的分布、每类生物中物 种数的分布、甚至电影所获得的奥斯卡奖项数的分布等,都是典型的幂律分布。


15 泊松分布:打开统计推断的大门


泊松分布公式

你可能感兴趣的:(2020-08-09)