描述性统计的主要作用是初步查看数据基本情况,检查是否有异常值,查看分布状态,对异常值辨明原因以及决定是否剔除,为接下来的深入分析做准备。描述性统计中有一项内容叫探索性分析,近几年越来越受到重视。
描述性统计主要关注数据的三大内容:
1.集中趋势
2.离散趋势
3.数据分布情况
这其中涉及的统计量大致为:
集中趋势:众数、均值、中位数(四分位数)
离散趋势:方差、标准差、极值、全距、均值标准误、离散系数
数据分布:不同的数据分布涉及的统计量不同,最常见的正态分布涉及到的统计量为峰度和偏度
各统计量的特点:
1.集中趋势
均值:最常用的集中趋势度量值,信息利用充分、但是很易受极值影响,可用于定距、定比数据,不能用于定类、定序数据。
众数:出现次数最多的变量、不受极值影响,可能没有众数或者有好几个众数,但是太明确的统计特性,可用于定类、定序、定距、定比数据
中位数:数据排序后处于中间位置的值,不受极值影响,在有个别极大值或极小值的数列中,中位数比均值更具代表性,但中位数对信息利用不充分,当样本量较小时数值不太稳定,可用于定序、定距、定比数据,但不能用于定类数据,因为定类数据无法排序。
2.离散趋势
方差、标准差:最常用的度量值,考虑了数据分布情况,涉及到了每一个变量值,同时也会受到极值的影响,它反映了各变量值与均值的整体差异,可用于定距、定比数据。不能用于定类、定序数据。
全距:极大值和极小值的差,易受极值影响,没有考虑数据分布情况,可用于定距、定比数据。不能用于定类、定序数据。
离散系数:当比较两组数据离散程度大小的时候,直接使用标准差并不合适,这时可以使用离散系数。
3.分布情况
我们常常会假设样本数据所在的总体是服从某种分布,针对每一种分布类型,都可以采用一系列的指标来描述数据偏离分布程度,最常见的是正态分布,有峰度和偏度两个指标