3.1 描述性统计分析 之 概念简介

在实际工作中,我们都喜欢看到汇总好的数据,直观的数据,而不是未统计好的一堆数据,呈现数据方式有多种,最基础的就是数据的简单描述,也称之为描述性统计。
任何事物都有两面性,就像我们评价一个人、一个公司一样,从正反两个方面进行评价,数据的描述也是一样,有“集中”与“离散”两种趋势。

1. 集中趋势

(1) 算数均数,简称均数(mean)
最常用来描述数据分布的集中趋势的统计指标,即描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用 表示。其计算公式是:


image.png

但均数不适用于对严重偏态分布的变量进行描述,也就是说,均数容易受到极端值的影响。由此,我们通常会用到下一个概念。
(2) 截尾均数
在进行均数描述时,若存在极端值,可考虑按照一定的比例去掉最两端的数据,然后再计算均数,因此,称之为截尾均数。若截尾均数与原均数相差不大,则说明数据不存在极值,或者两端的极值影响正好抵消。
常用的截尾均值是5%截尾均数,即两端各去掉5%的数据。
(3) 中位数 Median
顾名思义,就是中位数就是中间的数,那怎么算是中间的数?前提条件是将一组数据按照从小到大顺序排列,居于中间的数,即为中位数,它把全部数值分成两部分,比它小和比它大的数值个数正好相等。具体而言:

  • 当n为奇数时,M=X(n+1)/2,当n为偶数时,M=(Xn/2+Xn/2+1)/2
  • 由于中位数是位置平均数,因此不受极端值的影响,在具有个别极大值或极小值的分布数列中,中位数比平均数更具代表性,代表数据的集中趋势。
  • 中位数适用于任意分布类型的资料,不过,由于中位数只考虑居中的位置,对信息的利用不充分。因此,对于对称分布的数据,可优先考虑使用均数,只用均数不能使用时,才考虑用中位数代替。
    (4) 众数
    一组数据中,出现频次最多的数,即为众数,它也不受极端值的影响,但缺乏明确的统计特性,较少使用该指标。

2. 离散趋势

(1) 全距 Range
全距又称为极差,是一组数据中最大值与最小值之差,是最为简单的变异指标,只能用于预备性检查。
(2) 分位数
通常,分位数用的比较多的是百分位数、四分位数、四分位数间距。
何谓百分位数?百分位数(Percentile)是一种位置指标,用Px标志,一个百分位数Px将一组数据分为两部分,理论上有x%的样本比它小,有(100-x)%的样本比它大。中位数就是一个特定的百分位数,即P50。
四分位数,就是P25,P50,和P75分位数的总称,三个分位数将所有数据等分为4部分。四分位数间距,也就是P75与P25的间距,它剔除了两端极值的影响。


image.png

(3) 方差和标准差
方差与标准差是表现数据离散程度的重要指标。
对于每个数据而已,离散程度的大小就是和均数的差值,简称为离均差,而总体方差就是用离均差的平方除以样本n(见公式一)。
对于样本数据而已,方差的计算公式略有不同,差别在于是离均差的评分除以样本n-1(见公式二),其中n-1也称之为自由度。


image.png

方差这个指标考虑了每个数据的离散趋势,消除了负号以及样本量的影响,确实已经不错了,可是也有缺点:因为采用平方去除负号,导致离散趋势被夸大;另一个是量纲不合常理。因此,提出了标准差。
标准差就是方差的平方根,即为:
image.png

由于标准差与方差计算涉及每一个变量值,虽然他们两个是最理想、最可靠的变异指标,但也会受到极端值的影响。实际上,方差和标准差的适用范围最好是服从正态分布的数据。
(4) 变异系数
有时在实际工作分析中,我们会比较不同度量单位的数据、不同量纲的数据,采用方差和标准差比较数据离散度就不太合适。如某班级学生身高数据均值为160.0cm,标准差为5.0cm,体重数据均值为50kg,标准差为4.0kg,请问身高和体重数据离散性哪个大呢?此时单位cm和kg是没法比的。
所以统计学家们提出了新的指标—变异系数,即用各自离散趋势标准差除以各自的均数,由此,可消除了量纲的影响,比较离散程度就客观了。
image.png

3. 分布特征

在自然界中,任何数据都有属于自己的分布,正态分布、二项式分布……。每一种分布都有描述数据的分布特征,所用的描述也略有不同,在本次,我们主要介绍正态分布的相关指标:偏度系数、峰度系数。
(1) 偏度Skewness
偏度是用来描述变量取值分布形态的统计量,指分布不对称的方向和程度(记为g1),是与正态分布相比而言的统计量。

  • g1<0 为负偏或左偏,长尾在左,峰尖偏右
  • g1>0 为正偏或右偏,长尾在右,峰尖偏左
  • g1=0 为对称分布,即正态分布


    image.png

    (2) 峰度Kurtosis
    峰度是用来描述变量取值分布形态陡缓程度的统计量(记为g2),指分布图形的尖峭程度或峰凸程度。峰度也相对于正态分布而言。

  • g2<0 为形态比较平缓
  • g2>0 为峰的形状比较尖
  • g2=0 为正态峰


    image.png

你可能感兴趣的:(3.1 描述性统计分析 之 概念简介)