【statistics】描述数据的方法

一些基本变量包括均值,众数,中位数,方差什么的就不说了,值得注意的就是样本标准差s计算时是除以n-1。还有样本和总体符号的不同(总体均值,标准差分别是μ,σ)

一.Chebyshev`s theorem(切比雪夫理论)

一般的图:


(x-s,x+s) little info

(x-2s,x+2s) 75% info

(x-3s,x+3s) 8/9 info


对于正态分布:



一道例题:



b,这道题是找出低于40的占比,也就是x-2s,在图上标出40的位置,求40之前的面积占比即可(用68%,95%)


偏差估计

Z-score:


z的值与占比关系及偏差:

(-1,1)  68% 

(-2,2) 95%

(-3,3) 99.7% 

|z|>2  probable outlier

|z|>3  outlier


例题:


题目大意是一个女人觉得自己工资水平低了,怀疑公司性别歧视,于是看看自己工资在男性工资中的位置,通过z-score计算来判断自己的值在这张分布图里是否属于异常值,若是,则 sex discrimination

算出来-3.5,是!


箱形图:




1.5到3之间:suspect outliers

在3之外: highly suspect outliers

你可能感兴趣的:(【statistics】描述数据的方法)