常见概念

1. 集中趋势

  1. 众数(mode):一组数据中出现次数最多的变量值 ;
  2. 中位数:一组数据排序后处于中心位置上的变量值;
  3. 分位数:对数据排序后进行数量上的拆分,表示下四分位数,表示上四分位数,常见的有:
    1. 四分位数
    2. 十分位数
    3. 百分位数
  4. 平均数:用符号表示,样本均值用表示,用来测量定量数据的集中趋势;
    1. 简单平均数(mean),公式:
    2. 加权平均数(weighted mean),分组数据均值,公式 ;
    3. 几何平均数(geometric mean),计算平均比率,公式

平均数、中位数和众数的比较:
三者皆代表数据的中心位置,作为数据的代表;
都可以作为集中趋势的度量,
但平均数容易受到极端值的影响


2. 离散趋势

  1. 异众比率: 用来衡量众数对一组数据的代表程度;为众数组的频数, 总频数,异众比率越大说明数据分布越分散,异众比率越小,说明数据分布越集中;

  1. 极差和平均差

    1. 极差 R = max-min
    2. 离差
    3. 平均差(平均绝对离差)
    4. 分组数据平均差
  2. 方差和标准差

    1. 总体方差

    1. 样本方差

    2. 标准差:方差的开平方

    3. 分组数据总体方差

    4. 分组数据样本方差

    5. 标准分数:z分数,特性,平均数为0,标准差为1;也就是可知道某个数值相对于平均值的离散程度,(如:距离平均数3个标准差),还可以用来比较两个不同度量的数据离散程度;

    1. 四分位差(内距或四分间距),用或者IQR表示:

    1. 变异系数,又叫离散系数,表示一组数据的离散程度,可以用来比较两组数组的离散程度,值越小,离散程度越小

3. 数据分布的形状

  1. 偏态(skewness): 是对分布对称性的测度,测量偏态的统计量是偏态系数sk

分组数据偏态系数
分组均值

|sk| >1 ,高度偏态
0.5 < |sk| < 1 ,中度偏态
sk = 0 ,对称,无偏态

sk>0, 右偏态, sk <0 ,左偏态

  1. 峰态(kurtosis): 是对分布平峰或尖峰的测度,测量峰态的统计量是峰态系数 K

分组数据峰态系数

标准正态分布的峰度系数设为0,
通过与标准正态分布相比较,
K>0为尖峰分布,K<0 为扁平分布

4. 数据分布特征总结

切比雪夫法则

  1. 可能有很少的测量值落在平均值的1个标准差范围内;
  2. 所有数据中,至少有3/4(或75%)的数据位于平均数的2个标准差范围内;
  3. 所有数据中,至少有8/9(或88.9%)的数据位于平均数的3个标准差范围内;
  4. 所有数据中,至少有24/25(或96%)的数据位于平均数的5个标准差范围内。通常,对于任意大于1的数k,至少有 的测量值落在k个标准差范围内;

经验法则

适用条件:数据对称分布

  1. 大约68%的测量值位于均值的一个标准差范围内;
  2. 大约95%的测量值位于均值的2个标准差范围内;
  3. 几乎所有的测量值位于均值的3个标准差范围内;
image.png

你可能感兴趣的:(常见概念)