统计学②——概率分布(几何,二项,泊松,正态分布)

统计学系列目录(文末有大奖赠送
统计学①——概率论基础及业务实战
统计学③——总体与样本
统计学④——置信区间
统计学⑤——假设验证

概率分布描述了一个给定变量的所有可能取值结果的概率,历史上伟大的数学家们经过大量实验发现了一些很特殊的概率分布,比如几何,二项,泊松,正太分布等,这些分布在日常生活中很常见,且概率,期望和方差都有非常简便的算法。

一、几何分布

如果你碰见了这种情况:
a. 要进行一系列独立实验
b. 每一次实验既有成功的可能,也有失败的可能,且单次实验成功概率相同
c. 你感兴趣的是,为了取得第一次成功需要进行多少次实验
比如保龄球要玩多少次才能一下打倒10个?

如果你所求的概率的情况满足这几个条件,就可以用几何分布来帮你速战速决。
变量X表示为了取得第一次成功所需要进行的实验次数,如果一个变量X符合几何分布,且单次成功的概率为p,则可以写作:
在这里插入图片描述
几何分布图像如下:
统计学②——概率分布(几何,二项,泊松,正态分布)_第1张图片
看似有违直觉,但是实际上可能性最大的结果就是:仅需一次就成功;比如驾照考试,不管一个人的成功率是多少,一次就过的可能性对于他个人而言确实是最大的

①X取特定值r的概率计算公式(q = 1-p,为失败的概率):
在这里插入图片描述
②X取值在某个范围的概率计算公式
在这里插入图片描述在这里插入图片描述
有了概率计算公式,我们就不必要为了得到概率分布而计算每一种结果的概率,关键在于通过这个公式可以描述每一种可能结果

③ 几何分布的期望和方差
在这里插入图片描述
二、二项分布
二项分布之前先来了解下排列和组合
1、排列和组合
① 排列指的是选取对象并关注对象的排位顺序
如果求n个对象的可能排位方式,则计算为:
n! = n*(n-1)*(n-2)……3*2*1
如果从n个对象中取r个进行排位,则计算为:
统计学②——概率分布(几何,二项,泊松,正态分布)_第2张图片
② 组合是选取对象但不关注对象的排位顺序
如果为n个对象排位,其中第一类对象有k个,第二类对象有j个,第三类对象有m个……则排位计算为:
统计学②——概率分布(几何,二项,泊松,正态分布)_第3张图片
如果从n个对象中选取r个对象的选取方式的数目,这时不必知道对象的确切顺序
统计学②——概率分布(几何,二项,泊松,正态分布)_第4张图片
排位比组合多,除非只有一个对象

2、二项分布
a. 你正在进行一系列实验
b. 每一次都存在成功和失败的可能,且概率一样
c. 你想知道在一定区间内能成功多少次
比如玩了10把保龄球,有几把能打倒10个?

这就是典型二项分布的情况,与几何分布差别在于,你不是想知道多少次才成功的概率,而是想知道会有多少次成功。
X 表示 n次实验中成功次数,如果一个变量X符合二项分布且成功的概率为p,可以写成
在这里插入图片描述
二项分布图如下,根据n和r的不同,二项分布的形状会发生变化,p越接近于0.5,则图像越对称,p小于0.5,图像向右偏斜
统计学②——概率分布(几何,二项,泊松,正态分布)_第5张图片
① 当X取特定值 r 时,概率计算公式为(q=1-p):
在这里插入图片描述
② 当X取特定范围时,需要将范围内所有的X取值概率相加
③ 二项分布的期望和方差
在这里插入图片描述

三、泊松分布

在遇到独立事件时(例如机器在给定区间内发生故障),若已经λ(给定时间区间内事件发生的平均次数)且你感兴趣的是一个特定时间区间内的发生次数,这时就可以用泊松分布。
说起来有点绕,其实就是知道一个平均值,求其余值的概率,比如一个月平均要吃5顿火锅,那这个月吃1顿,2顿,3顿等的概率。
令X是实际发生的次数,如果变量X符合泊松分布,且平均发生次数或发生率为λ,则
在这里插入图片描述
① 概率计算如下:
在这里插入图片描述
② 泊松分布的期望和方差

③ 如果两个独立事件A,B都符合泊松分布
在这里插入图片描述

四、正态分布

前面三种提到的都是离散变量的概率分布,如果X取值是连续值时,又该如何计算概率呢?
概率密度函数来描述连续变量的概率分布,概率密度是一条线,线与横坐标形成的面积就是概率,一般通过积分计算而得
对于离散变量概率,我们关注的是特定数值的概率,而连续概率分布,我们更关心的是取得一个特定范围的概率。
正态分布具有钟形曲线,且曲线对称,中央的概率密度最大,直偏离中心概率密度越小。正态分布通过均值μ和方差σ2定义,μ代表曲线的中心位置,σ2代表曲线的分散性,越大则曲线越扁平。如果一个连续变量X符合均值为μ,方差为 σ^2的正态分布,则通常写作:
在这里插入图片描述
统计学②——概率分布(几何,二项,泊松,正态分布)_第6张图片
日常生活中有很多现象均符合正态分布,比如身高,年龄,财富,体重的分布等。当得知X符合正态分布后,如何计算X在[a,b]范围内的概率呢?
统计学②——概率分布(几何,二项,泊松,正态分布)_第7张图片
我们有一张标准概率表,给出了X~N(0,1)的概率,要做的就是将X标准化为N(0,1)的分布后,再通过查表就得到概率,标准化公式为:
统计学②——概率分布(几何,二项,泊松,正态分布)_第8张图片

五、各种分布之间的关系

① 当二项分布中n>50且p<0.1时,二项分布X~B(n,p)可以近似为泊松分布X-Po(np)
② 当二项分布中np>5且nq>5时,二项分布X~B(n,p)可以近似为正态分布X-N(np,npq)
③ 当泊松分布中λ>15时,泊松分布X~Po(λ)可以近似为正态分布X-N(λ,λ)
统计学②——概率分布(几何,二项,泊松,正态分布)_第9张图片


本人互联网数据分析师,目前已出Excel,SQL,Pandas,Matplotlib,Seaborn,机器学习,统计学,个性推荐,关联算法,工作总结系列。


微信搜索并关注 " 数据小斑马" 公众号,回复“统计”可以免费获取下方深入浅出统计学、统计学原理、赤裸裸的统计学9本统计学入门到精通必备经典教材
在这里插入图片描述

你可能感兴趣的:(统计学,几何分布,泊松分布,二项分布,正态分布,概率密度函数)