偏差、方差、标准差、协方差

目录

  • 1 期望值(Expectation)
  • 2 偏差(Bias)
  • 3 方差(Variance)
    • 3.1 总体方差(Population Variance)
    • 3.2 样本方差(Sample Variance)
  • 4 标准差(Deviation)
    • 4.1 总体标准差(Population Standard Deviation)
    • 4.2 样本标准差(Sample Standard Deviation)
  • 5 协方差(Covariance)
    • 5.1 协方差(Covariance)
    • 5.2 协方差矩阵(Covariance Matrix)
  • 5.3 相关系数


1 期望值(Expectation)

一件事情有n种结果,每一种结果值为 x i x_i xi,发生的概率记为 p i p_i pi,那么该事件发生的期望为:

E = ∑ i = 1 n x i p i E=\sum_{i=1}^{n}{x_i}{p_i} E=i=1nxipi


2 偏差(Bias)

定义: 描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据。
S 2 = 1 n ∑ i = 1 n ( y i − f ( x i ) ) 2 S^2=\frac{1}{n}\sum_{i=1}^{n}{(y_i-f(x_i))}^2 S2=n1i=1n(yif(xi))2
y i y_i yi 表示预测值, f ( x i ) f(x_i) f(xi) 表示真实值。 偏差描述了准确性


3 方差(Variance)

3.1 总体方差(Population Variance)

定义: 描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。

σ 2 = E [ ( X − μ ) 2 ] \sigma^2=E[(X-\mu)^2] σ2=E[(Xμ)2]
其中: μ \mu μ 为全体平均数。方差描述了稳定性。

注:
上面的式子需要知道 X X X的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。

3.2 样本方差(Sample Variance)

定义: 在真实世界中,除非在某些特殊情况下,找到一个总体的真实的方差是不现实的。因此,从总体中取出 n n n个样本 ,用各样本值与样本算数平均数的离差平方的平均数对 σ 2 \sigma^2 σ2进行估计。

有偏估计: 现实中往往并不清楚 X X X服从什么分布,但若知道 μ \mu μ的真值,则可对 X X X采样,并通过下式来估计 σ 2 \sigma^2 σ2
S 2 = 1 n ∑ i = 1 n ( X i − μ ) 2 S^2=\frac{1}{n}\sum_{i=1}^{n}{(X_i-\mu)}^2 S2=n1i=1n(Xiμ)2
无偏估计: 更多的情况,我们不知道 μ \mu μ是多少的,只能计算出 X ‾ \overline{X} X。用下式子进行估计,得到的样本方差是总体方差的无偏估计。
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^{n}{(X_i-\overline{X})}^2 S2=n11i=1n(XiX)2
推导过程参见为什么样本方差(sample variance)的分母是 n-1?


4 标准差(Deviation)

4.1 总体标准差(Population Standard Deviation)

定义: 标准差为方差的算术平方根,能反映数据的离散程度。
σ = D ( X ) \sigma=\sqrt{D(X)} σ=D(X)

注:
D ( X ) D(X) D(X)为总体方差。

4.2 样本标准差(Sample Standard Deviation)

定义: 即样本方差的算术平方根。

有偏估计:
S = ∑ i = 1 n ( X i − X ‾ ) 2 n S=\sqrt{\frac{\sum_{i=1}^{n}{(X_i-\overline{X})}^2}{n}} S=ni=1n(XiX)2

无偏估计:
S = ∑ i = 1 n ( X i − X ‾ ) 2 n − 1 S=\sqrt{\frac{\sum_{i=1}^{n}{(X_i-\overline{X})}^2}{n-1}} S=n1i=1n(XiX)2


5 协方差(Covariance)

5.1 协方差(Covariance)

定义: 协方差代表了两个变量之间的关系。如果 协方差为正值,说明两个变量呈正相关;如果协方差为负值,则两个变量呈负相关;若 协方差为0,两个变量相互独立。
        期望值分别为 E ( X ) E(X) E(X) E ( Y ) E(Y) E(Y) 的两个实随机变量 X X X Y Y Y 之间的协方差 C o v ( X , Y ) Cov(X,Y) Cov(X,Y) 定义为:
C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y ] − 2 E [ Y ] E [ X ] + E [ X ] E [ Y ] = E [ X Y ] − E [ X ] E [ Y ] \begin{aligned} Cov(X, Y) &=E[(X-E[X]) (Y-E[Y])] \\ & =E[XY]-2E[Y]E[X]+E[X]E[Y] \\ & =E[XY]-E[X]E[Y] \end{aligned} Cov(X,Y)=E[(XE[X])(YE[Y])]=E[XY]2E[Y]E[X]+E[X]E[Y]=E[XY]E[X]E[Y]
计算公式:
σ ( X , Y ) = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) \sigma(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n}{(X_i-\overline{X})(Y_i-\overline{Y})} σ(X,Y)=n11i=1n(XiX)(YiY)

注:
方差是一种特殊的协方差。当X=Y时: C o v ( x , y ) = D ( X ) = D ( Y ) Cov(x,y)=D(X)=D(Y) Cov(x,y)=D(X)=D(Y)

直观理解:
        协方差表示的是两个变量总体误差的方差,这与只表示一个变量误差的方差不同。两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?
         X X X变大,同时 Y Y Y也变大,说明两个变量是同向变化的,这时协方差就是正的。
         X X X变大,同时 Y Y Y变小,说明两个变量是反向变化的,这时协方差就是负的。
        从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。

5.2 协方差矩阵(Covariance Matrix)

概念: 设 为 n n n维随机变量 X = ( X 1 , X 2 , . . . X N ) T X=(X_1,X_2,...X_N)^T X=(X1,X2,...XN)T,称矩阵

偏差、方差、标准差、协方差_第1张图片
n n n维随机变量 X X X的协方差矩阵(covariance matrix),也记为 D ( X ) D(X) D(X) ,其中

在这里插入图片描述

X X X的分量 X i X_i Xi X j X_j Xj的协方差(设它们都存在)。

注:
上述矩阵中,对角线上的元素为各个随机变量的方差,非对角线上的元素为两两随机变量之间的协方差,根据协方差的定义,我们可以认定协方差矩阵为对称矩阵(symmetric matrix),其大小为 n × n n×n n×n(即方阵)。

参考如何直观地理解「协方差矩阵」?

5.3 相关系数

概念: 就是用 X X X Y Y Y 的协方差除以 X X X 的标准差和 Y Y Y 的标准差。
ρ x y = r ( X , Y ) = C o v ( X , Y ) σ X σ Y = ∑ i = 1 n ( X i − X ‾ ) ( Y i − Y ‾ ) ∑ i = 1 n ( X i − X ‾ ) 2 ∑ i = 1 n ( Y i − Y ‾ ) 2 \begin{aligned} \rho_{xy}&=r(X,Y) \\ & =\frac{Cov(X,Y)}{\sigma_X\sigma_Y} \\ & =\frac{\sum_{i=1}{n}{(X_i-\overline{X})(Y_i-\overline{Y})}}{\sqrt{\sum_{i=1}^{n}{(X_i-\overline{X})^2}}\sqrt{\sum_{i=1}^{n}{(Y_i-\overline{Y})^2}}} \end{aligned} ρxy=r(X,Y)=σXσYCov(X,Y)=i=1n(XiX)2 i=1n(YiY)2 i=1n(XiX)(YiY)

性质:

  1. 有界性
    相关系数的取值范围为-1到1,其可以看成是无量纲、标准化后的协方差。
  2. 统计意义
    值越接近1,说明两个变量正相关性(线性)越强,越接近-1,说明负相关性越强,当为0时表示两个变量没有相关性。
    参考如何通俗易懂地解释「协方差」与「相关系数」的概念?

你可能感兴趣的:(数据笔记,读书笔记)