常用的连续概率分布汇总

9731e1b94f6ea52cfed0779ce2813076.png

来源:Deephub IMBA

本文约1800字,建议阅读5分钟 
本文为你详细介绍常用的连续概率分布。

常用的连续概率分布汇总_第1张图片

在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。

常用的连续概率分布汇总_第2张图片

均匀分布

在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。

常用的连续概率分布汇总_第3张图片

CDF曲线是

常用的连续概率分布汇总_第4张图片

累积分布函数(Cumulative Distribution Function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。一般以大写CDF标记,,与概率密度函数probability density function(小写pdf)相对.


正态分布

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。

P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

常用的连续概率分布汇总_第5张图片

正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。

若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

常用的连续概率分布汇总_第6张图片

正态性检验包括Shapiro-Wilk W检验、Anderson-Darling检验(AD-Test)和Kolmogorov-Smirnov检验。

如果log(x)是正态分布,x是对数正态分布

e8add7d4d2194e8dac5b9a160446b656.png

指数分布

在概率理论和统计学中,指数分布(也称为负指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。这是伽马分布的一个特殊情况。它是几何分布的连续模拟,它具有无记忆的关键性质。除了用于分析泊松过程外,还可以在其他各种环境中找到。

指数分布与分布指数族的分类不同,后者是包含指数分布作为其成员之一的大类概率分布,也包括正态分布,二项分布,伽马分布,泊松分布等等。

可以使用指数分布对不同事件发生之间所花费的时间进行建模。比如:包括生存分析(设备/机器的预期寿命),以及指定时间段内的指定数量的默认值。在金融领域,它常被用来衡量金融资产组合下一次违约的可能性。

常用的连续概率分布汇总_第7张图片

指数函数的一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。这表示如果一个随机变量呈指数分布,当s,t>0时有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的寿命,已知元件使用了t小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。在连续概率分布中,只有指数随机变量具有这种性质。

t分布

t-分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。

如果总体方差已知(例如在样本数量足够多时),则应该用正态分布来估计总体均值。

当²未知时,t分布可以用来推断总体均值。当自由度为无穷大时,t分布=正态分布。

常用的连续概率分布汇总_第8张图片

伽玛分布

伽玛分布(Gamma Distribution)是统计学的一种连续概率函数,是概率统计中一种非常重要的分布。“指数分布”和“χ2分布”都是伽马分布的特例。泊松过程中连续出现之间的时间具有指数分布。

对时间序列进行建模预测接下来发生 n 个事件时就会出现伽马分布。它在机器学习中被当作“共轭先验”使用。

常用的连续概率分布汇总_第9张图片

常用的连续概率分布汇总_第10张图片

Gamma 函数

常用的连续概率分布汇总_第11张图片

常用的连续概率分布汇总_第12张图片

当形状参数α=1时,伽马分布就是参数为γ的指数分布,X~Exp(γ)。

当α=n/2,β=1/2时,伽马分布就是自由度为n的卡方分布,X^2(n)。


贝塔分布

贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称Β分布,是指一组定义在(0,1) 区间的连续概率分布。

贝塔分布最适合表示概率的概率分布 - 也就是说,当我们不知道概率是什么时,它表示概率的所有可能值。

常用的连续概率分布汇总_第13张图片

beta函数

常用的连续概率分布汇总_第14张图片

F 分布

F分布是1924年英国统计学家Ronald.A.Fisher爵士提出,并以其姓氏的第一个字母命名的。它是两个服从卡方分布的独立随机变量各除以其自由度后的比值的抽样分布,是一种非对称分布,且位置不可互换。F分布有着广泛的应用,如在方差分析、回归方程的显著性检验中都有着重要的地位。

F 分布经常作为检验统计量的零分布出现,尤其是在与方差相等和方差分析 (ANOVA) 相关的 F 检验中。

韦布尔分布

韦布尔分布,即韦伯分布(Weibull distribution),又称韦氏分布威布尔分布,是可靠性分析和寿命检验的理论基础。

韦氏分布可以模拟随时间增加(或减少)的故障率,而当磨损率或故障率(例如,故障率)恒定时,指数分布是合适的。所以韦氏分布在可靠性工程中被广泛应用,尤其适用于机电类产品的磨损累计失效的分布形式。由于它可以利用概率值很容易地推断出它的分布参数,被广泛应用于各种寿命试验的数据处理。

编辑:于腾凯

校对:林亦霖

常用的连续概率分布汇总_第15张图片

你可能感兴趣的:(机器学习,python,人工智能,数据分析,算法)