正态分布/标准差/四分位数

1. 四分位数的概念和中位数差不多,中位数是数集中最中间的一个数,四分位数可分为上四分位(偏上/大届)和下四分位。他们和中位数可以刻画出正哥数据的一个分布情况。相关链接:https://www.zhihu.com/question/54858749/answer/202280013


2. 为什么有了方差的情况下还要引入标准差?

与方差相比,使用标准差来表示数据点的离散程度有3个好处:

A)表示离散程度的数字与样本数据点的数量级一致,更适合对数据样本形成感性认知。依然以上述10个点的CPU使用率数据为例,其方差约为41,而标准差则为6.4;两者相比较,标准差更适合人理解。

B)表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算。

C)在样本数据大致符合正态分布的情况下,标准差具有方便估算的特性:66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标准差的范围内。

其中波动大小==离散程度

中心极限定理:当n很大时,随机变量近似地服从标准正态分布N(0,1)

样本标准差和总体标准差(猴哥):https://www.zhihu.com/question/27276029/answer/70788053

链接:http://blog.shaochuancs.com/mean-variance-sd/


3.正态分布:若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

作用:可以大概估算出数据的位置

正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%。

P{|X-μ|<σ}=2Φ(1)-1=0.6826

横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。

P{|X-μ|<2σ}=2Φ(2)-1=0.9544

横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。

P{|X-μ|<3σ}=2Φ(3)-1=0.9974

链接:https://zhuanlan.zhihu.com/p/24732117


数学真是个奇妙的工具呀呀呀呀呀呀呀!!!

你可能感兴趣的:(正态分布/标准差/四分位数)