描述统计学初步

统计学是数据时代的入门基础。简而言之,统计学就是利用数据收集去发现生活中每一件事背后的“模式”。有的时候,一件意外发生了,我们感觉到惊诧。但万事万物的背后都有“道”的存在,这个“道”,其实就是这种模式。

一旦将数据收集起来,然后去观察这些生活中存在的模式,就是在使用统计学的方法。而统计学也同样有很多前人总结的方法让我们来学习和掌握事物背后的规律。

这让我们用一种特殊的视角去看待世界。

但是,一大堆数字,我们是看不懂的,所以我们需要能够找到这些数据中的规律

描述统计学就是用几个关键性的数字去简单地理解整个数据集。

首先要注意的是这样四种数值:平均数、(中位数)四分位数、标准差、标准分。

平均数是我们日常里最常用的,也容易挂在嘴边的。就好像及格线一样,高于及格线说明数值高于大多数,低于及格线说明数值低于大多数。平均数对异常值不敏感,这个好理解:我们的工资“被平均”,是因为有的人工资太高,以至于这个异常数将整体平均值拉高;

四分位数就是在一个数据集中出于25%、50%和75%处的数据,首先50%处的数据被称为中位数,就是将一个数据集里面的数值进行从小到大的排列,然后在这个数列中取中间的那个数。如果是单数就取单数,双数且取中间两个数求平均值。25%处的叫下四分位数,75%叫上四分位数。四分位数可以体现在一个箱体图中,在这个箱体图中我们可以看到数据中的几个特征点,这样可以非常容易地判断出整个数据集的情况,也可以很快发现异常值。

标准差是为了描述一个数据集的离散程度,实际上就是描述这个数据集中数据的波动大小。离散其实指代的是每个数据点距那个大量数据聚集的中心到底有多“发散”。具体到数学公式上就是用数据集里的每个数减去平均数来求和,但是这个减去平均数之后,又不能有负数,所以就先平方,再求和,再开方。最后的结果西格玛就是标准差。总之标准差描述的就是稳定性,稳定性越高,标准差越低。

标准分是表示某个数值距离平均分有多少个标准差,公式自然是用这个数值减去平均分再除标准差。标准分是用来体现某个得分在整体分数中的状况的衡量指标。

你可能感兴趣的:(数据分析)