本文主要是基于下面优秀博客文的总结和梳理:
概率論中常見分佈總結以及python的scipy庫使用:兩點分佈、二項分佈、幾何分佈、泊松分佈、均勻分佈、指數分佈、正態分佈
(侵删。)
概率分布有两种型別:离散(discrete)概率分布和连续(continuous)概率分布。
离散概率分布也称为概率质量函式(probability mass function)。离散概率分布的例子有伯努利分布(Bernoulli distribution)、二项分布(binomial distribution)、泊松分布(Poisson distribution)和几何分布(geometric distribution)等。
连续概率分布也称为概率密度函式(probability density function),它们是具有连续取值(例如一条实线上的值)的函式。正态分布(normal distribution)、指数分布(exponential distribution)和β分布(beta distribution)等都属于连续概率分布。
- PDF:概率密度函数(probability density function), 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。本身不是概率,取值积分后才是概率。
- PMF: 概率质量函数(probability mass function), 在概率论中,概率质量函数是离散随机变量在各特定取值上的概率。
- CDF: 累积分布函数 (cumulative distribution function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。是PDF在特定区间上的积分。 CDF就是PDF的积分,PDF就是CDF的导数
描述发生某事件概率。
任何一个CDF,是一个不减函数,最终等于1。
一些分析结论和注意点:
1)PDF是连续变量特有的,PMF是离散随机变量特有的;
2)PDF的取值本身不是概率,它是一种趋势(密度)只有对连续随机变量的取值进行积分后才是概率,也就是说对于连续值确定它在某一点的概率是没有意义的;
3)PMF的取值本身代表该值的概率。
PDF-(积分)->CDF
PDF描述了CDF的变化趋势,即曲线的斜率。
PMF[离散随机变量 概率]
概率质量函式(probability mass function)
1、两点分布(伯努利分布)(Bernoulli distribution)
伯努利试验:
伯努利试验是在同样的条件下重复地、各次之间相互独立地进行的一种试验。
即只先进行一次伯努利试验,该事件发生的概率为p,不发生的概率为1-p。这是一个最简单的分布,任何一个只有两种结果的随机现象都服从0-1分布。
最常见的例子为拋硬币
其中:
- 期望E = p
- 方差D = p(1-p)^2+(1-p)(0-p)^2 = p*(1-p)
2、二项分布(n重伯努利分布)(X~B(n,p)(Binomial distribution)
即做n个两点分布的实验
其中:
- E = np
- D = np(1-p)
对于二项分布,可以参考https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binom.html
二项分布的应用场景主要是,对于已知次数n,关心发生k次成功。
,即为二项分布公式可求。
对于拋硬币的问题,做100次实验,观察其概率分布函式:
from scipy.stats import binom
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
## 设定属性防止中文乱码
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False
首先汇入库函式以及设定对中文的支援
fig,ax = plt.subplots(1,1)
n = 100
p = 0.5
#平均值, 方差, 偏度, 峰度
mean,var,skew,kurt = binom.stats(n,p,moments='mvsk')
print mean,var,skew,kurt
#ppf:累积分布函式的反函式。q=0.01时,ppf就是p(X
[图片上传失败...(image-dbd774-1517353918840)]
观察概率分布图,可以看到,对于n = 100次实验中,有50次成功的概率(正面向上)的概率最大。