初步理解正态分布

本文关注正态分布的一些理解上的关键点,求消化不求详细。


中心极限定理(Central Limit Theorem)

中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,对这n个抽样取平均值,总共抽取关计算 m 次。 则这m个平均值数据分布接近正态分布。

核心观念是无论之前各值的分布情况是怎么样的,取样计算的平均值会符合正态分布,这一点使得正态分布的适用范围很大,当然前提条件是取样是随机的,值是独立的。一般来讲取样数量大于30个(即n>30)就可以让中心极限定理发挥作用。不同分布情况下取平均值后得到的正态分布可以见如下图示:

平均分布 from statistical-engineering.com


倒数分布 from statistical-engineering.com
三角分布 from statistical-engineering.com
抛物线分布 from statistical-engineering.com

应用上的例子可以是掷骰子,投掷1000次,可以得到近似平均的分布:

而如果每次投掷30次(n次),然后计算点数平均值。总共进行1000组(m组),即可以得到粗略的正态分布:

增加样本数量或组数可以得到更细的正态分布:

掷骰子的例子就是由平均分布的点数,多次抽样求出的平均值符合正态分布的情况。

正态分布本身

标准正态分布(概率密度函数)的表达式为:

其有几个特点:

1. p(x)始终大于0,且关于0点左右对称;

2. 积分为1;

3. 期望为0,方差为1;

一般正态分布是在标准正态分布基础上平移或缩放得到的。如缩放sigma(标准差)后平移mu(期望)得到概率密度函数公式为:

所以知道了期望和方差,就可以完全确定该正态分布。

如下图中的四条正态分布曲线,期望值(mu)体现为曲线的平移,方差(sigma平方)代表缩放程度。方差越小曲线越瘦高。

from wikipedia

你可能感兴趣的:(初步理解正态分布)