本篇文章以《商务与经济统计》为蓝本,参考了里面的知识构架,内容主要包括描述统计学、概率、离散型概率分布、连续型概率分布、抽样和抽样分布、区间估计、假设检验、两总体均值和比例的推断、关于总体方差的统计推断、拟合优度检验和独立性检验、实验设计与方差分析……
主要采用平均数、中位数、众数、百分位数、四分位数来对数据的位置进行度量。
平均数是数据中心位置的度量,分为样本平均数和总体平均数,它们的区别只是来源不同,计算过程完全相同。 样本平均数计算公式如下:
中位数是对中心位置的另一种度量。将所有数据按升序排序后,位于中间的数值即为中位数;当观测值是奇数时,中位数就是中间的那个数,如果观测值是偶数时,是中间的两个数的平均值。
众数是数据集中出现次数最多的数值,一般情况下,如果一个数据集中有三个众数及以上,我们判断这个指标失效。
百分位数提供了数据如何散步在从最小值到最大值的的区间上的信息。对于没有多个重复数值的数据,第p百分位数将数据分割成两个部分:大约有p%的观测值比第p百分位数小;大约有(100-p)%的观测值比第p百分位数大。首先确定百分位数的位置下标:
四分位数是百分位数的特例,包括25/50/75分为数,为 Q1 、 Q2 、 Q3 ,其中, Q2 就是数据集的平均数。其位置公式非常简单,参考百分位数即可:
当数据中含有极端值时,使用中位数作为中心位置的度量比平均数更合适。有时,当存在极端值时,我们用到调整平均数,即从数据集中删除一定比例最大值和最小值,然后计算剩余数据的平均值,就能得到调整平均数。
极差是一种最简单的变异程度的度量。
四分位数间距(IQR)作为变异程度的一种度量,能够克服极端值的影响。
方差是用所有数据对变异程度所做的一种度量。方差依赖于每个观测值( xi )与平均值之间的差异,这个称谓平均数的离差(deviation about the menu)。同样的,根据数据的集合大小方差也分为总体方差和样本方差两种。样本方差:
注意,样本方差的分母为数据数目-1,这里涉及到无偏估计的一些东西,是由于样本方差与总体方差并不一定相等,除以n-1进行了放大处理。
标准差是方差的正平方根,用 s 和 σ 表示。
标准差系数是标准差对平均数的比值,计算公式如下:
对于直方图,样本分布可能并不均匀,包括左偏、右偏以及对称分布,通常这种情况使用偏度值来衡量,偏度的计算公式如下:
通常左偏情况下,平均值<中位数<众数,其它可同等推理
z-分数是确定一个特定的数值距平均值的距离,计算公式如下:
切比雪夫定理能使我们指出与平均数的距离在某个特定个数的标准差之内的数据值所占的比例。
定理:与平均数的距离在 z 个标准差之内的数值所占比例至少为强调内容 (1−1z2) ,其中 z 是大于1的任意实数。
切比雪夫定理很重要,当然,z-分数的形式你不觉得熟悉吗?
经验法则:对于钟形分布的数据:
数据集中有一个或多个数值异常大或异常小的观测值,这样的数值称为异常值(outliers)
检测方法:根据经验法则,如果z-分数超过了3个标准差,几乎可以判定就是异常值。
样本协方差定义如下:
协方差并不是那么好理解的,原因在于随机变量X与Y的度量单位可能并不相同,比如说人的身高与体重的关系,这个就比较难以解释,所以一般情况下采用相关系数来对两变量间的相关关系进行度量。
皮尔逊相关系数(样本数据):
当 x 与 y 不相关时(注意,并不是相互独立),相关系数为0,当相关系数越接近1时,表明 x 与 y 相关性越大,当 x 与 y 具有完全的线性关系时,相关系数为1
解释相关系数的作用……