如何描述数据分布的特征?

数据分布的特征可以从集中趋势,离中趋势,偏态和峰态三个方面进行描述

一.集中趋势(位置)

是一组平均指标,它反映了总体的一般水平或分布

1.平均数

分为:简单平均数(均值),加权平均数,几何平均数

特点:是集中趋势最常用的测度值;是一组数据的均衡点所在;易受极端值影响;用于数值型数据,不能用于分类数据和顺序数据

简单平均数

如何描述数据分布的特征?_第1张图片

加权平均数

如何描述数据分布的特征?_第2张图片

几何平均数

主要用于计算平均增长率

如何描述数据分布的特征?_第3张图片 

2.中位数

排序后处于中间位置上的值

主要用于顺序数据,也可用于数值型数据,但不能用于分类数据

不受极端值的影响

3.众数

一组数据中出现次数最多的数据值

一组数据可能没有众数或有多个众数

适合数据量较多时,并且在数据分布偏斜程度较大且有明显峰值时应用

二.离中趋势(分散程度)

是一组变异指标,主要是用来刻画总体分布的变异状况或离散程度

1.极差

是一组数据的最大值和最小值之差

特点:极差越大,离散程度越大;离散程度最简单的测度值;易受极端值影响;未考虑数据的分布

2.平均差

是各变量与均值差的平均数,即平均差异,反映一组数据的离散程度

特点:各变量与均值差的绝对值的平均数;数学性质较差,实际应用较少;未考虑数据的分布

3.方差

反映的是各变量与均值差的平均差异,是数据离散程度最常用的测度值

总体方差:根据总体数据计算的

样本方差:根据样本数据计算的

4.标准差

是方差的算术平方根,也是数据离散程度常用的测度

5.变异系数

是标准差与其对应的均值之比

用于对不同组别的数据比较其离散程度

当比较两组数据离散程度时:如果他们的平均数相同,可以直接利用标准差来比较,标准差越大,离散程度越大;但如果平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值(即变异系数)来比较

三.偏态和峰态(形状)

反映数据总体分布形态的指标

偏态:反映数据分布不对称的方向和程度

峰态:反映数据分布图的尖峭程度或扁平程度

1.偏态系数

是数据分布偏斜程度的测度

偏态系数 = 0时:对称分布

偏态系数 > 0时:右偏分布

偏态系数 < 0时:左偏分布

2.峰态系数

是数据分布尖峭程度的测度

峰态系数 = 0时:峰度适中

峰态系数 > 0时:尖峰分布

峰态系数 < 0时:偏平分布

四.数据标准化

定义:数据指数化

意义:能够去除数据的单位限制,将其转化为无单位的纯数值,便于不同单位或量级的指标能够进行比较和加权

0-1标准化:也叫离差标准化,是对原始数据进行线性变换,是结果落到 [0,1] 区间

z-score标准化:也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1

你可能感兴趣的:(统计学,数据分析,数据挖掘)