正态分布、偏度及箱线图

前言

参考:正态分布的峰度和偏度分别为_【1003】正态分布10种鉴别方法汇总【荐藏】

数据描述

正态分布:

若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。期望值μ决定了其位置,标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
实际应用中,许多数据集具有如图所示的对称的峰形或钟形分布,即正态分布。当数据被认为近似这种分布时,就可以运用经验法则来确定与平均数的距离在某个特定个数的标准差之内的数据值所占的比例,实际应用中可计算一些概率问题,类似购买的灯泡质量问题等,可以和假设检验相结合。
正态分布、偏度及箱线图_第1张图片

横轴区间(μ-σ,μ+σ)内的面积为68.268949%≈68%,数据集中约有68%的值落在一个标准差之内
横轴区间(μ-2σ,μ+2σ)内的面积为95.449974%≈95%,即数据集中约有95%的值落在两个标准差之内
横轴区间(μ-3σ,μ+3σ)内的面积为99.730020%≈99%,即数据集中约有99%的值落在三个标准差之内

偏度场景:

偏度(Skewness)可以用来度量随机变量概率分布的不对称性,可以进行正态性统计检验。
案例:某高校随机抽取600人,测得身高和体重
① 目测法检验数据是否符合正态分布
均值、中位数与众数在三种分布的关系如下,如果三者偏差太大,一般不可能符合正态分布。
正态分布、偏度及箱线图_第2张图片
正态分布、偏度及箱线图_第3张图片
偏度右偏,数据不符合正态分布
② 非参数方法-单个样本K-S检验
SPSS软件点击SPSS-分析-非参数-单个样本K-S检验
正态分布、偏度及箱线图_第4张图片
解读:单样本K-S检验可以验证四种分布,本例选择的是正态分布验证,非参数检验结果一般比较简单,大家看最后的P值=0.000<0.05。因此,不符合正态分布
③ 箱线图检验:
正态分布、偏度及箱线图_第5张图片
(此处图可替换成由标识上下四分位数图)
看长方形的上下边(上四分位数和下四分位数)和中位数之间的距离是否相等,不能偏上也不能偏下

你可能感兴趣的:(统计学,数据建模,数据分析)