统计学基础之描述统计学的数值方法

位置的度量

平均数

样本平均数：$$\bar{x} = \frac{\sum x_i}{n}$$
总体平均数：$$\mu = \frac{\sum x_i}{N}$$
加权平均数：$$\bar{x} = \frac {\sum w_ix_i}{\sum w_i}$$
几何平均数：$$\bar{x} = \sqrt[n]{x_1x_2...x_n}$$

中位数

将数据按照从小到大排列：

对于偶数个观测值，中位数为中间两数的平均值。

对于奇数个观测值，中位数为中间数。

众数

出现最多的数据，可能不止一个。

百分位数

至少有$p\%$的数据小于等于该值，至少有$1-p\%$的数据大于等于该值。

将数据按照从小到大的顺序排列，并计算$n * p\%$：

若为整数，则取该值与下一位数的平均数。

若不为整数，则向上取整。

中位数、四分位数等是特殊的百分位数。

变异程度的度量

极差与四分位数间距

极差：最大值与最小值之差$$max(x_i) - min(x_i)$$
四分位数间距(Interquantile Range,IQR)：四分位数之差$$IQR = Q_3 - Q_1$$
极差与四分位数间距都是变异程度的简单度量，相比较而言，极差更容易受异常值影响，因此多采用四分位数间距。

方差与标准差

方差是对数据总体变异程度的度量。

总体方差:$$\sigma^2 = \frac{\sum (x_i - \mu)^2}{N}$$
样本方差:$$s^2 = \frac{\sum(x_i - \bar x)^2}{n-1}$$

其中样本方差为无偏方差。

无偏性：统计量的估计值的均值等于该统计量。$$E(\hat\theta) = \theta$$

证明：

其中$\mu$为总体均值，$\sigma$为总体标准差$$\begin{split}E(s^2) & = \frac 1{n-1}\sum E(x_i-\bar x)^2 \\& =\frac 1{n-1}\sum (Ex_i^2+E(\bar x)^2-2Ex_i\bar x) \end{split}$$

对于随机变量$X$$$\begin{split}DX & = E(X-EX)^2\\& = E[X^2-2XEX+(EX)^2]\\& = EX^2-(EX)^2\end{split}$$

故有$$EX^2 = \mu^2+\sigma ^2$$

同理，由于$$E\bar X = \mu$$$$D\bar X = \frac {\sigma^2}{n}$$

故$$E\bar X^2 = \mu^2 + \frac {\sigma^2}{n}$$

又有$$\begin {split}EX_i\bar X & = \frac 1n EX_i(X_i+\sum_{j \neq i} X_j)\\&=\frac 1n(EX_i^2+EX_i\sum_{j\neq i} EX_j)\\&=\mu^2+\frac 1n \sigma^2\end{split}$$

故 $$E(s^2) = \frac 1{n-1}\sum (\mu^2+\sigma^2+\mu^2+\frac {\sigma^2}{n}-2\mu^2-\frac {2\sigma^2}n) =\sigma^2$$

标准差（s）：方差的算术平方根。

标准差系数（变异系数）：标准差除以平均数。$$\frac s{\bar x}$$

分布形态、相对位置度量以及异常值检测

分布形态的度量——偏度

偏度：若随机变量的三阶矩存在，则偏度定义如下：$$skew(X)=\frac{E(X-\mu)^3}{\sigma^3}$$

当偏度大于0时，称为右偏，偏度小于零称为左偏。

切比雪夫定理

切比雪夫定理：对于任意分布，与均值距离$z$个标准差的之内的数据所占的比例至少为1-1/${z^2}$,其中$z>0$

切比雪夫定理来源于切比雪夫不等式：
$$P(|x-\mu|\geq\epsilon)\leq\frac{\sigma^2}{\epsilon^2}$$或$$P(|x-\mu|\leq\epsilon)\geq1-\frac{\sigma^2}{\epsilon^2}$$

针对连续变量的切比雪夫不等式证明：

要证$$P(|x-\mu|\geq\epsilon)\leq\frac{\sigma^2}{\epsilon^2}$$

只需$$\epsilon^2\int_{|x-\mu|\geq\epsilon}f(x)dx\leq\sigma^2$$

即 $$\int_{|x-\mu|\geq\epsilon}\epsilon^2f(x)dx\leq\int(x-\mu)^2f(x)dx$$

由于$$\int_{|x-\mu|\geq\epsilon}(x-\mu)^2f(x)dx<\int(x-\mu)^2f(x)dx$$

且$$|x-\mu|\geq\epsilon \Rightarrow (x-\mu)^2\geq\epsilon^2 \Rightarrow \int_{|x-\mu|\geq\epsilon}\epsilon^2f(x)dx\leq\int_{|x-\mu|\geq\epsilon}(x-\mu)^2f(x)dx$$

故原命题得证。

异常值检测

异常值检测有两种简单的方法：

1）z-score法$$z = \frac{x-\mu}{\sigma}$$

由于日常数据大多近似服从正态分布，由标准正态分布表可知，数据位于$z=\pm3$之内的的概率为99.87%，因此，对于z位于该区间之外的数据认为是异常值。

2）四分位数间距法

$$上限 = Q1 - 1.5IQR$$

$$下限 = Q3 + 1.5IQR$$

五数概括法和箱线图

五数概括法

用最大值最小值中位数以及上下四分位数五个数字对数据进行概括的方法。

箱线图

import os
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

os.chdir('E:\Files\数据文件\第2章')
df = pd.read_excel('Restaurant.xlsx')
df.head()

	Restaurant	Quality Rating	Meal Price ($)
0	1	Good	18
1	2	Very Good	22
2	3	Good	28
3	4	Excellent	38
4	5	Very Good	33

以上数据为某城市100家餐厅的代表餐品价格以及餐厅的质量评级，下面使用箱线图描述不同等级的餐厅价格分布。其中：

箱内线：中位数。
箱子上边界：第三四分位数$Q_3$
箱子下边界：第一四分位数$Q_1$
上边界线：$min\{max(X),Q_3+1.5IQR\}$
下边界线：$max\{min(X),Q_1-1.5IQR\}$
上下边界外的点：异常值。

两变量之间关系的度量

协方差

协方差是两随机变量线性相关性的度量，协方差绝对值越大，两随机变量相关性越强，协方差为正数表明两随机变量正相关，协方差为负表明两随机变量负相关。对于一组容量为N的数据，其观测值为$(X_1,Y_1),(X_2,Y_2)...(X_N,Y_N)$,其协方差定义如下：

总体协方差：$$Cov(X,Y) = E(X-EX)(Y-EY) = \frac{\sum(X_i-EX)(Y_i-EY)}{N}$$

类似的，样本协方差为：$$s_{xy} = \frac{\sum(x_i-\bar x)(y_i-\bar y)}{n-1}$$

样本协方差为总体协方差的无偏估计量，其证明如下：
$$\begin{split}E(s_{xy}) &= \frac 1{n-1}\sum E(x_iy_i-x_i\bar y -\bar xy_i+\bar x \bar y)\\&=\frac1{n-1}\sum[E(x_iy_i)-E(x_i\frac{y_i+\sum_{j\neq i}y_j}n)-E(y_i\frac{x_i+\sum_{j\neq i}x_j}n)+E(\frac{\sum_{i,j=1}^{n}x_iy_j}{n^2}]\\&=\frac1{n-1}\sum [EXY -\frac 2nEXY - \frac {2(n-1)}n EXEY +\frac {nEXY+n(n-1)EXEY}{n^2}\\&=EXY-EXEY\\&=Cov(X,Y)\end {split}$$