正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。高斯在研究测量误差时从另一个角度导出了它。
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
正态分布单峰与分布的均值、中位数和众数相对应。它的离散程度可以用标准差表示。
将一般正态分布转化成标准正态分布。
服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。
若随机变量 服从一个位置参数为 、尺度参数为 的概率分布,且其概率密度函数为
则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作读作
服从
,或
服从正态分布。
当 时,正态分布就成为标准正态分布
曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。
关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。
正态分布有两个参数,即期望(均数)μ和标准差σ,为方差。
正态分布具有两个参数μ和σ^2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ^2是此随机变量的方差,所以正态分布记作N(μ,σ2)。
μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数、中位数、众数相同,均等于μ。
σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
面积分布
1、实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。不同 范围内正态曲线下的面积可用公式计算。
2、正态曲线下
P{|X-μ|<σ}=2Φ(1)-1=0.6826
P{|X-μ|<2σ}=2Φ(2)-1=0.9544
P{|X-μ|<3σ}=2Φ(3)-1=0.9974
正态分布需要的条件:
如果一个数据集满足以下四个标准,那么它就接近于正态分布
正态分布的3原则(68-95-99.7规则):
计算标准分数:
某一数值大于或小于均值的标准差个数叫作标准分数(或z值)。标准分数的计算公式为
z= 标准分数 = (数值一均值) / 标准差
数值大于均值时,标准分数为正;数值小于均值时,标准分数为负
百分位数:
如果某一特定数值满足在全部数据中小于等于它的比率为n%,那么该数值的最小可能取值便是第n百分位数。处于两个百分位数之间的数据,我们称其位于更低的百分位上。
中心极限定理:
假设在任意分布(没有必要是正态分布)中,对某一变量随机选取了容量为n的若干样本,并记录每个样本均值的分布,那么: