统计正数和负数的个数然后计算这些数的平均值_描述性统计-统计学基础

统计正数和负数的个数然后计算这些数的平均值_描述性统计-统计学基础_第1张图片

前言

所谓“工欲善其事必先利其器”,作为一名数据分析师,统计学知识就是手中的“器”,亦是数据分析的基础。在日常工作中统计学知识用到最多的就是描述性统计方法,有些知识点看似很基础,往往却是应用的高频知识点,在数据分析中起着至关重要的作用。本文将围绕描述性统计的基本知识点进行简单阐述并尝试用Python实现基本运算。

知识点框架:

统计正数和负数的个数然后计算这些数的平均值_描述性统计-统计学基础_第2张图片
知识点导图

正文

一、集中趋势

1、众数

在一个数据集合中,一个数值出现的次数最多,那么这个数值就是该数据集合的众数。如果有两个或多个数值的出现次数并列最多,那么这两个或多个数值都是该数据集合的众数。需要注意的是如果一个集合中所有值出现的次数都是一样多,那么该数据集无众数。

2、中位数

将数据集合中所有的数值按照它们的大小,从高到低或从低到高进行排序,如果数据集合包含的数值个数是奇数,那么排在最中间的数值就是该数据集合的中位数;如果数据集合的数值个数是偶数,那么取最中间两个数值的算术平均值作为中位数。

它的优势在于“稳定”不受极端值的影响,因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势。

4、分位数

分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。

这里主要介绍四分位数,四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。主要应用于统计学中的箱线图绘制。

3、算术平均数

简单算术平均值是最典型、最常用、最具代表性的集中趋势指标,具体公式如下:

4、加权平均数

加权平均值即将各数值乘以相应的权数,然后加总求和得到总体值,再除以总的单位数。

其中
表示权数

5、几何平均数

几何平均数是对各变量值的连乘积开项数次方根。

几何平均值被用于各种定比数据的平均值计算,假设有一个定比数据集合,集合中的数值分别为x1,x2,…,xn,且所有的数值均大于 0,那么该数据集合的几何平均值的计算公式为:

二、数据的离中趋势

数值型数据:方差、标准差、极差、平均差

1、方差

在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:

为总体方差,
为变量,
为总体均值,
为总体例数。

但实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式:

2、标准差

方差的算术平方根,简单来说就是方差开根号。

总体标准差公式为:

样本标准差公式为:

3、极差

极差又被称为全距,是指数据集合中最大值与最小值的差值,表示整个数据集合能够覆盖的数值距离。

计算公式:

4、平均差(平均偏差)

对于任意一个数据集合,表示其离散程度的一种容易想到的度量方式就是与算术平均值的偏离,平均偏差就是这样一种度量指标。为了解决数据集合中的每个数值与算术平均值之间的偏差之和等于0这个问题,统计学家很聪明地使用了绝对值,然后再用平均的方法,消除了负号带来的影响,这就有了平均偏差的产生。

平均偏差的数值代表了所有数值与平均值的平均偏差距离。平均偏差的计算公式为:

顺序数据:四分位差

四分位极差等于第一四分位数与第三四分位数的差值(Q3-Q1),这个差值区间包含了整个数据集合50%的数据值;在箱线图中,整个矩形部分代表四分位极差。

求四分位极差的具体步骤如下:

1.首先要找到Q1(第一四分位数)与Q3(第三四分位数)的位置。公式为:

2.确定Q1与Q3的数值后,Q3-Q1得到四分位极差。

分类数据:异众比率

异众比率是统计学当中研究现象离中趋势的指标之一。异众比率指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。

三、相对离散程度

离散系数

离散系数又称变异系数,变异系数实质上是标准差相对于算术平均值的大小。如果比较算术平均值不同的两个数据集合的相对离散程度时,使用变异系数要比使用标准差更具有说服力。同时变异系数无单位指标,正是因其这个特点使其不仅可以说明同类事物的相对离散程度,还可以说明不同类型事物的相对离散程度。

总体的变异系数计算公式为:

总体的变异系数计算公式为:

四、分布的形状

1、偏态系数(SK:Skewness)

偏态系数以平均值与中位数之差对标准差之比率来衡量偏斜的程度,用SK表示偏斜系数:偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。小口诀:长尾在哪边就是往哪边偏。

偏态系数绝对值值越大,偏斜程度越厉害。
SK< 0 左偏
SK> 0 右偏

SK以mean、mode之差与σ的比例来计算的,因此mean>mode,也就是右偏的时候,SK>0。

统计正数和负数的个数然后计算这些数的平均值_描述性统计-统计学基础_第3张图片
图片来源:https://blog.csdn.net/weixin_38322363/article/details/82952770

2、峰态系数(峰度kurtosis)

峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标。

正态分布的峰度K=3,均匀分布的峰度K=1.8。

除了左偏右偏之外我们还需要从峰度上看峰度是否偏离了正态分布。

kurtosis=K-3 称为超值峰度

kurtosis>0,尖峰态(leptokurtic),数据集比较分散,极端数值较多

kurtosis<0,低峰态(platykurtic),数据集比较集中,两侧的数据比较少

五、代码尝试

import 

你可能感兴趣的:(统计正数和负数的个数然后计算这些数的平均值_描述性统计-统计学基础)