统计与概率分布

 

一、为什么要研究数据分布

“这部分主要是bi站视频-统计的乐趣-的笔记”

统计学最早是政府的工具,用来统计全国的数据,便于更好的进行管理。例如统计全国各地区的粮食产量,全国人的结婚率,离婚率,死亡率等等。19世纪,欧洲兴趣了统计学,统计学家们统计了许多能记录的信息。并对之进行分析。最初,统计学家发现,平均值非常重要。例如各地区的平均身高,平均粮食产量等信息进行分析研究。后来个体的差异也越来越得到统计学家的重视。并设计了统计图来展示个体差异。

统计与概率分布_第1张图片

数据在统计图中的形状,称之为数据的分布。

当统计学家们热衷于研究数据的分布时,他们发现有一种分布居然会反复出现。Francis Galton将之称为“正太分布”。研究学家研究数据分布有什么用呢?

1)用统计数据观察世界,便于分析某个随机事件。并可根据当前事件的规律对未来进行预测。

2)便于分析原因。通过相关性分析可以分析事件之间的联系。以及事物之间是如何相互影响,相互作用的。

下面分别介绍几种常见的概率分布,它们都产生于特定的自然或社会进程中。

二 几种常见的概率分布

离散型变量概率分布

1、伯努利分布

关于布尔变量x∈{0,1}的概率分布,为纪念瑞士科学家雅各布·伯努利而命名。亦称为“零一分布”概率分布函数

,x只有两种取值0,1。也可表示为

期望E[x]=u。方差var[x]=u(1-u)

2、二项分布

将伯努利实验扩展到多次,其结果符合二项分布(Binomial)。描述了N次独立的伯努利实验有m次成功的概率。假设每次伯努利实验成功概率为p。概率函数为:

期望E[x]=Nu,方差var[x]=Nu(1-u)

3、几何分布

n次的伯努利实验,实验k次才第一次成功。也就是前k-1次都失败。第k次成功。概率函数为:

期望E(x)=1/p。标准差

4、泊松分布

泊松分布式在已知过去发生频率的基础上,预测接下来一段特定时间内,该事件发生特定次数的概率

例如,某件事情每小时平均发生10次,我想知道接下来一个小时该事件发生15次的概率。直接把x=15,u=10带入上面公式即可。

连续性随机变量

1、正态分布

亦称之为“高斯分布”,是应用最为广泛的连续概率分布。

正态分布拥有单变量x。参数为均值,方差。概率密度函数为:

三 为什么通常假设数据满足正态分布

因为正态分布简单,所以通用。自然界的多数随机变量,都大致遵循正态分布。为什么?中心极限定理:一个变量一般都受多个随机变量的影响,这些随机变量的分布总和最终非常接近正态分布。例如人的身高会受到其他多个随机变量的影响,基因,营养,气候,等等等,这些随机变量可能各自满足不同的分布。多个随机变量作用的结果就会使身高变量大致遵循正态分布。

那么在我们不知道一个随进变量满足的分布的情况下,要对其分布进行假设时,一般就会假设其满足正态分布。其实就是一个随机变量遵循正态分布的先验概率大,在不知道其分布的情况下,不妨假设其满足正态分布。

 

 

 

你可能感兴趣的:(统计与概率,概率分布,数据分布)