大数据之统计学基础(一) -- 描述统计

描述统计

1.描述数据水平的统计量

  1. 平均数(平均数反映了一组数的平均水平,平均数会受到极端值的影响),在计算时一般使用算术平均数:

  1. 分位数:四分位数、中位数(中位数反映一组数据的中等水平,只与数据的位置有关,不受极端值影响)、百分位数

  1. 众数(一组数据中出现频次最多的数)

2.描述数据差异的统计量

  1. 极差:一组数据的最大值与最小值之差(受极端值影响)。

  1. 四分位差(反映中间50%数据的离散程度,不受极端值影响)。

  1. 方差和标准差:标准差反映数据离散程度的绝对值,其数值受原始数据大小的影响;另外,标准差与原始数据的计量单位相同,因此,在比较不同样本数据的离散程度时,使用变异系数是更好的选择。

  1. 变异系数(CV):变异系数又称离散系数,变异系数消除了计算数值和计量单位的影响,因此可以反映一组数据的相对离散程度(变异系数是相对值),主要用于比较不同样本数据的离散程度。

  1. 标准分数:标准化值,度量每个数值在该组数据中的相对位置

3.描述数据分布形状的统计量

  1. 偏度系数:偏度系数用于描述数据分布的对称性,偏度系数越接近0,则数据的分布月对称,偏度系数为正,则数据分布为右偏,为负,则数据分布为左偏

  2. 峰度系数:描述数据分布峰值的高低。

你可能感兴趣的:(大数据之统计学基础(一) -- 描述统计)