n维正态分布概率密度_数据分析基础(1)——神奇的正态分布

分布是用来描述事件(通常用随机变量X表示)发生规律的数学工具,比如X~N(78, 9)描述了某个考试科目考试成绩的分布情况,服从均值为78,方差为9的正态分布。我们常用直方图或概率密度曲线来展示分布特点(如下图)。#寻找真知派#

n维正态分布概率密度_数据分析基础(1)——神奇的正态分布_第1张图片

图1 考试成绩分布图(正态分布)

事件的分布类型有很多种,比如指数分布、t分布、泊松分布等,每种分布都对应于一个概率密度函数(连续随机变量)或概率质量函数(离散随机变量)。通过这个函数,我们就可以估算某个事件发生的概率(反之亦可)。这为我们认识问题、分析问题提供了强有力的工具。

n维正态分布概率密度_数据分析基础(1)——神奇的正态分布_第2张图片

图2 指数分布

n维正态分布概率密度_数据分析基础(1)——神奇的正态分布_第3张图片

图3 泊松分布

在所有的分布种类中,正态分布是一个很神奇的分布。大多数自然现象和社会事件都服从正态分布,比如身高、收入水平、智力水平等。正态分布的特点是分布曲线是左右对称的,极端现象发生的概率小,而通常现象的发生率高。如图1的成绩分布,大多数学生的成绩在70-85之间,极少数高分和低分。正态分布反映了“普通情况是大多数,极端情况是少数且不失偏颇(极大极小机会均等)”的客观规律。有人将其誉为“上帝创造的公平机制”。

583590fde93e07eb659a98aa571110d8.png

图4 N(μ,σ2)正态分布的概率密度函数

另外,根据中心极限定理,任何分布,随着其自由度或样本量的增大,其均值都会服从正态分布,也就是说正态分布是所有分布的终极形态。任何一种分布,通过数据变换(如对数化或Box-Cox变换),都可以转化为正态分布,然后进一步求解。在统计分析和机器学习中,正态分布起着基础性的关键作用,也就是说如果没有正态分布,就没有这些数据分析方法。

为什么会这样呢?因为正态分布最具普遍性,而且是最简洁最容易计算的分布。其中心趋势(均值、中位数、众数)均相等,且整个分布仅需指定两个参数——均值μ和方差σ2。

下面我们来看一个例子:

一个5000人的生活区,放置了45个水龙头。假如在某一时刻1个人用水的概率是1%,(1)试分析发生排队的可能性有多高?(2)至少要装多少个水龙头,才能以95%以上的概率保证不拥挤?

我们先来看第一个问题。

用水事件服从二项分布,即ζ~B(5000,0.01)。其均值μ=5000*0.01=50,方差σ2=49.5,标准差σ=7.04。 那么出现排队的概率就是

fc995c9aaeb15324f76650d686ce32c7.png

二项分布下的概率计算

但上述公式求解非常麻烦。我们可以根据德莫佛——拉普拉斯中心极限定理,将上述问题转化为正态分布N(50,49.5),予以求解。

974edc68fb74f1050ea7644846c98bc5.png

转化为标准正态分布,进行概率计算

所以发生排队的概率P(ζ > 45) = 1 − 0.2389 = 0.7611。用水出现拥挤是大概率事件,亟待改善。

现在我们再来看第二个问题,需要多少个水龙头才能保证95%的可能性不排队呢?即

73b6dc7705d384e668080f1dc2f3f7f7.png

我们可以将上式转化为标准正态分布的形式

63ad858f65a12b61132a94be3f452a5c.png

于是我们得到了

2c8d036140ada1f24833a98431a3f636.png

6872107394eaaa4d3376fd3d3da30a53.png

m>=61.6,即m=62。需要再增加17个水龙头,便可保证有95%的可能性不排队。#技术技能超级玩家#

@头条号

你可能感兴趣的:(n维正态分布概率密度)