第一周:数据的描述性统计

写在前面的话

       平静心湖起涟漪,开始新的挑战。我会根据每周工作繁忙程度来完成作业,时间充裕的时候尽量高质量完成,忙的时候采用懒人模式。作业的日期、质量等无法固定,可能会迟到,但不会缺席。


数据的集中趋势

  1. 众数 :统计学术语,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。 修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用M表示。 理性理解:简单的说,就是一组数据中占比例最多的那个数

  2. 中位数 :又称中点数,中值。中位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小,这里用m0.5来表示中位数。(注意:中位数和众数不同,众数指最多的数,众数有时不止一个,而中位数只能有一个。)

  3. 平均数 :统计学术语,是表示一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。

第一周:数据的描述性统计_第1张图片
众数、中位数、平均数
  1. 分位数 :亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数即二分位数、四分位数、百分位数等。

  2. 极差 :又称范围误差或全距(Range),以R表示,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距,即最大值减最小值后所得之数据。它是标志值变动的最大范围,它是测定标志变动的最简单的指标。移动极差(Moving Range)是其中的一种。极差不能用作比较,单位不同 ,方差能用作比较, 因为都是个比率。

数据的离中趋势

数值型数据

  1. 方差 :方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。方差是衡量源数据和期望值相差的度量值。

       其中:为总体方差,为变量,为总体平均值,为样本个数。

  1. 标准差 :又常称均方差,是离均差平方的算术平均数的平方根,用表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。

       其中:为实数,为到的算术平均值,为变量个数。

  1. 极差 :又称范围误差或全距(Range),以R表示,是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距,即最大值减最小值后所得之数据。

  1. 平均差 :表示各个变量值之间差异程度的数值之一。指各个变量值同平均数的离差绝对值的算术平均数。

       其中:为实数,为到的算术平均值,为变量个数。

顺序数据:四分位差

       四分位差(quartile deviation),它是上四分位数(Q3,即位于75%)与下四分位数(Q1,即位于25%)的差。

       四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。

分类数据:异众比率

       异众比率指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。

其中:表示异众比率,表示众数次数,表示总体次数。

相对离散程度——离散系数

       离散系数是测度数据离散程度的相对统计 量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。在概率论和统计学中,离散系数(coefficient of variation),是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。

       其中,为标准差,为样本算术平均值

分布的形态

  1. 偏态系数
  • 偏态:统计数据峰值与平均值不相等的频率分布。根据峰值小于或大于平均值可分为正偏函数和负偏函数,其偏离的程度可用偏态系数刻画。如平均数大于众数,称为正偏态(positiveskewness);相反,则称为负偏态(negativeskewness)。

  • 偏态系数:偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。

       其中:为实数,为样本的算术平均值,为标准差,为样本个数。

第一周:数据的描述性统计_第2张图片
偏态
  1. 峰度系数

       统计上是用四阶中心矩来测定峰度的。因为实验研究表明,偶阶中心矩的大小与图形分布的峰度有关。其中的二阶中心矩就是数据的方差,它在一定程度上可以反映分布的峰度,但有时方差相同的数据却有不同的峰度,因此就利用四阶中心矩来反映分布的尖峭程度。为了消除变量值水平和计量单位不同的影响,实际工作中是利用四阶中心矩与σ4的比值作为衡量峰度的指标,称为峰度系数。但是在SPSS中的计算公式是四阶中心矩与σ4的比值减去3后的值,这个值与0相比,如果为0,说明其峰度与正态分布相同。大于0,说明它是比正态分布要陡峭。

       其中:为实数,为样本的算术平均值,为标准差,为样本个数。

疑问

       网上搜到的另一个峰度系数公式里,,不确定以哪个为准,待以后认真学习后解决。


本周总结

       开始学习的第一周,从松兄推荐开始,看了第一周学习目录。本周学习内容主要是看书和搜集材料,一周看一本书肯定是看不完的,决定采用最省力、最简单的办法——各处copy知识点。随后看到作业提交方式,又花了一点时间研究和MD语法。本周刚开始,匆忙之中有很多东西都没理顺,接下来的学习和作业质量应该会慢慢提高。
       水平有限,不对之处请多多指正。

你可能感兴趣的:(第一周:数据的描述性统计)