统计学基础回顾(一)

前言

本篇文章以《商务与经济统计》为蓝本,参考了里面的知识构架,内容主要包括描述统计学、概率、离散型概率分布、连续型概率分布、抽样和抽样分布、区间估计、假设检验、两总体均值和比例的推断、关于总体方差的统计推断、拟合优度检验和独立性检验、实验设计与方差分析……

数值方法

位置的度量

主要采用平均数、中位数、众数、百分位数、四分位数来对数据的位置进行度量。

平均数

平均数是数据中心位置的度量,分为样本平均数和总体平均数,它们的区别只是来源不同,计算过程完全相同。 样本平均数计算公式如下:

x¯=xin

总体平均数计算公式如下:
μ=xiN

中位数

中位数是对中心位置的另一种度量。将所有数据按升序排序后,位于中间的数值即为中位数;当观测值是奇数时,中位数就是中间的那个数,如果观测值是偶数时,是中间的两个数的平均值。

众数

众数是数据集中出现次数最多的数值,一般情况下,如果一个数据集中有三个众数及以上,我们判断这个指标失效。

百分位数

百分位数提供了数据如何散步在从最小值到最大值的的区间上的信息。对于没有多个重复数值的数据,第p百分位数将数据分割成两个部分:大约有p%的观测值比第p百分位数小;大约有(100-p)%的观测值比第p百分位数大。首先确定百分位数的位置下标:

i=(p100)N

如果i不是整数,向上取整,如果i是整数,取第i和第i+1个数,然后取平均。

四分位数

四分位数是百分位数的特例,包括25/50/75分为数,为 Q1 Q2 Q3 ,其中, Q2 就是数据集的平均数。其位置公式非常简单,参考百分位数即可:

loc=(25i100)N

当数据中含有极端值时,使用中位数作为中心位置的度量比平均数更合适。有时,当存在极端值时,我们用到调整平均数,即从数据集中删除一定比例最大值和最小值,然后计算剩余数据的平均值,就能得到调整平均数。

变异程度的度量

极差

极差是一种最简单的变异程度的度量。

=

四分位数间距

四分位数间距(IQR)作为变异程度的一种度量,能够克服极端值的影响。

IQR=Q3Q1

即使用了50%的中间数据来衡量。

方差

方差是用所有数据对变异程度所做的一种度量。方差依赖于每个观测值( xi )与平均值之间的差异,这个称谓平均数的离差(deviation about the menu)。同样的,根据数据的集合大小方差也分为总体方差和样本方差两种。样本方差:

s2=(xix¯)2n1

总体方差:
σ2=(xiμ)2N

注意,样本方差的分母为数据数目-1,这里涉及到无偏估计的一些东西,是由于样本方差与总体方差并不一定相等,除以n-1进行了放大处理。

标准差

标准差是方差的正平方根,用 s σ 表示。

标准差系数

标准差系数是标准差对平均数的比值,计算公式如下:

(×100)%

在比较两个变量时,如果它们的平均值与标准差均不相同,用标准差系数来衡量它们的变异程度比较有效。

分布形态、相对位置的度量以及异常值的检测

分布形态

对于直方图,样本分布可能并不均匀,包括左偏、右偏以及对称分布,通常这种情况使用偏度值来衡量,偏度的计算公式如下:

=n(n1)(n2)(xix¯s)3

对于左偏, x¯ 值偏大,而左偏较远的值会急剧放大这种差异,使偏度呈现负值,同理右偏,偏度为正值,对称时偏度为0。

通常左偏情况下,平均值<中位数<众数,其它可同等推理

z-分数

z-分数是确定一个特定的数值距平均值的距离,计算公式如下:

zi=xix¯s

切比雪夫定理

切比雪夫定理能使我们指出与平均数的距离在某个特定个数的标准差之内的数据值所占的比例。
定理:与平均数的距离在 z 个标准差之内的数值所占比例至少为强调内容 (11z2) ,其中 z 是大于1的任意实数。

切比雪夫定理很重要,当然,z-分数的形式你不觉得熟悉吗?

经验法则

经验法则:对于钟形分布的数据:

  • 大约68%的数据值与平均数的距离在1个标准差之内
  • 大约95%的数据值与平均数的距离在2个标准差之内
  • 几乎所有的数据值与平均数的距离在3个标准差之内
检测异常值

数据集中有一个或多个数值异常大或异常小的观测值,这样的数值称为异常值(outliers)
检测方法:根据经验法则,如果z-分数超过了3个标准差,几乎可以判定就是异常值。

两变量间关系的度量

协方差

样本协方差定义如下:

sxy=(xix¯)(yiy¯)n1

总体协方差:
σxy=(xiμx)(yiμy)N

协方差并不是那么好理解的,原因在于随机变量X与Y的度量单位可能并不相同,比如说人的身高与体重的关系,这个就比较难以解释,所以一般情况下采用相关系数来对两变量间的相关关系进行度量。

相关系数

皮尔逊相关系数(样本数据):

rxy=sxysxsy

其中 sx sy x y 的标准差, sxy 是样本的协方差。
皮尔逊相关系数(总体数据):
ρxy=σxyσxσy

其中 σx σy x y 的总体标准差, σxy 是总体的协方差。

x y 不相关时(注意,并不是相互独立),相关系数为0,当相关系数越接近1时,表明 x y 相关性越大,当 x y 具有完全的线性关系时,相关系数为1
解释相关系数的作用……

你可能感兴趣的:(数据分析)