浅谈概率分布

“统计”一词在当下可以说是非常的流行,但是常常偏离了统计学的本意。如果能从统计学的基础上深入理解统计,并且再应用,应该更好。而要深谈统计学,就必须先理解概率论。概率论描述的是基础的,也可以说是理想的情况。本文从概率论里面常见的分布说起,简单的做介绍。
概率分布包括了常听到的二项分布、正态分布等等。可将概率分布分成两类:离散分布(分布律)和连续分布(分布函数)。离散和连续是指随机变量的取值而说。随机变量这个概念是对于样本空间中事件的描述。是将现实映射到数字中。
一、离散分布
关于离散分布,也称分布律,是指随机变量是可数或者可列的。本文介绍的离散分布有古典分布、贝努利分布(0-1分布)、二项分布、泊松分布。
1、古典分布
古典分布,又叫等可能概型。描述一种场景:样本空间S中的样本点是有限的,并且每个样本点出现的概率是相等的。
P(A) = A中所包含的样本点数/S中所包含的样本点数
2、贝努利分布
描述一种情景:出现一种情况的可能性是p,另一种可能性是1-p。写成X~B(1,P)
贝努利分布虽然简单,我认为有两点需要重视:
A、这个例子中有一个隐含的假定就是每次碰到这个场景的时候,这个概率值是不变的。否则,这个试验是不可能重现的。
B、只有两种结果。或者其他结果可以排除。
从数学上描述贝努利分布是:
对于一个随机试验,若它的样本空间只包含两个元素,即s={e_1,e_2},就可以定义一个贝努利分布的随机变量。
在这里插入图片描述
数学期望:E(X)=P
方差:D(X)=P(1-P)
3、二项分布
当进行了多次(n)贝努利试验后,会出现一个问题:“1”出现的次数,令其为X, X的可能取值为0,1,2….n。二项分布就是描述这个随机变量的分布,写成X~B(n,p)。
在这里插入图片描述
数学期望:E(X)=np
方差:D(X)=nP(1-P)
4、泊松分布
当二项分布中的n无限大且未知的时候,可以推导出泊松分布。可以理解为在单位时间里面,将单位时间分解成无穷小区间,每个区间独立发生贝努利试验后,“1”的个数。所以一般情况下,泊松分布都与计数相关。
简单对比,泊松分布相比于二项分布,前者是纵向发生,后者是横向发生。泊松分布写成X~ π(λ)或X~P(λ)。分布率如下:
在这里插入图片描述
具体的推导是将二项分布中n趋向无穷时,P的数值。
数学期望:E(X)= λ
方差:D(X)= λ
二、连续分布
对于随机变量的取值是连续的情况,引进概率密度函数的概念。概率密度函数f(t)与分布函数F(x)的关系如下:
在这里插入图片描述
本文介绍的连续分布有均匀分布、指数分布和正态分布。
1、均匀分布(与古典分布可以对应)
若X的概率密度函数
在这里插入图片描述
其中a 均匀分布与离散分布中的古典分布是对应的,其概率密度函数是一个定值。在二维图形中,均匀分布下特定事件的概率与区间范围大小成正比,与起(终)点无关:
在这里插入图片描述
数学期望:E(X)=(a+b)/2
方差:D(X)=〖(b-a)〗^2/12
2、指数分布(与泊松分布可以对应)
若X的概率密度函数
在这里插入图片描述
其中λ>0,就称X服从参数为λ的指数分布(Exponential),记为x~ E(λ)或x~Exp(λ)。
在这里插入图片描述
指数分布的最重要的特征就是无记忆性。
对于t_0>0,t>0,
浅谈概率分布_第1张图片
综上,
在这里插入图片描述
指数分布的另外一个应用就是描述泊松分布中每两个事件之间的时间的分布。推广就是独立事件的时间间隔的概率分布。
数学期望:E(X)=1/λ
方差:D(X)=1/λ^2
3、正态分布(高斯分布)
若X的概率密度函数为:
在这里插入图片描述
其中,-∞<μ<+∞,σ>0,记为X~N(μ,σ^2).
正态分布在各个领域的应用都很广泛,对于正态分布的性质,可以结合概率密度函数的性质加以理解,有四条性质:
1、 f(x)关于x=μ对称。
2、 当x≤μ时,f(x)是严格单调递增函数;
3、在这里插入图片描述
4、在这里插入图片描述
另外,正态分布的数学期望:E(X)=μ ;方差:D(X)=σ^2.
结合正态分布的概率密度的性质,可以知道正态分布对应的样本空间是有一个集中点,大部分的样本集中在该点附近,不仅如此,离该点越远,样本出现的概率越小。其实对于现实中大部分情况都是这样。在此基础上,我自己理解下来,正态分布有三个特点:
正态分布对于概率衰减的大小速度是有严格界定的。以样本空间的标准差为尺子,一个尺子距离里面,集中了样本空间中65%的样本;两个尺子距离里面,集中了95%的样本;三个尺子距离里面,集中了99.73%的样本。(在严格的数学计算中,数据稍有出入,不影响使用)
正态分布的中心标准化转化应用非常广泛,中心标准化之后,正态分布就变成了N(0,1)的,同时调整了期望和方差,解决了正态分布概率密度函数计算复杂的问题。中心标准化在机器学习等领域是数据预处理常见的手段。
正态分布可以描述多种独立因素影响下事物的发展情形(世界就是这么奇妙~),是统计抽样的基础。

你可能感兴趣的:(统计学,统计学,概率论,分布,泊松分布,正态分布)