协方差详解

今天面算法,面试官问协方差是什么,因为平时基本可能用不到,所以一脸懵逼,今天来温习一下什么是协方差。

期望(Expection)

函数f(x)关于某分布P(x)的期望或者期望值是指,当x是由P产生时,f作用于x时,f(x)的平均值。对于离散型随机变量,通过求和得到:
E x ∼ P [ f ( x ) ] = ∑ x P ( x ) f ( x ) \mathbb{E}_{x\sim P}[f(x)]=\sum_xP(x)f(x) ExP[f(x)]=xP(x)f(x)
对于连续性随机变量则可以通过积分得到:
E x ∼ P [ f ( x ) ] = ∫ P ( x ) f ( x ) d x \mathbb{E}_{x\sim P}[f(x)]=\int P(x)f(x)dx ExP[f(x)]=P(x)f(x)dx
概率分布在上下文指明时,可以简写为 E x [ f ( x ) ] \mathbb{E}_x[f(x)] Ex[f(x)];如果随机变量明确时,可以简化为 E [ f ( x ) ] E[f(x)] E[f(x)]

期望是线性的,那么:
E x [ α f ( x ) + β g ( x ) ] = α E x [ f ( x ) ] + β E x [ g ( x ) ] \mathbb{E}_x[\alpha f(x) + \beta g(x)] = \alpha \mathbb{E}_x[f(x)] + \beta \mathbb{E}_x[g(x)] Ex[αf(x)+βg(x)]=αEx[f(x)]+βEx[g(x)]
其中 α \alpha α β \beta β不依赖于x。

方差(Variance)

方差衡量的是当我们对x依据它的概率分布进行采样时,随机变量x呈现出的函数值差异的大小的期望:
V a r ( f ( x ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] Var(f(x)) = \mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2] Var(f(x))=E[(f(x)E[f(x)])2]
方差很小时,f(x)的值形成的簇比较接近它们的期望值。方差的平方根被称为标准差。

Bias衡量了模型的输出值和真实值之间的差距;Variance衡量的是模型每一次输出结果与模型输出期望的之间的误差,也即模型的稳定性。

协方差(Covariance)

协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量同一个变量的情况。
C o v ( f ( x ) , g ( y ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( y ) − E [ g ( y ) ] ) ] Cov(f(x),g(y)) = \mathbb{E}[(f(x)-\mathbb{E}[f(x)])(g(y)-\mathbb{E}[g(y)])] Cov(f(x),g(y))=E[(f(x)E[f(x)])(g(y)E[g(y)])]
注意:x=y,f = g上式即为方差。

协方差在某种意义上给出了两个变量线性相关的强度以及这些变量的尺度:
协方差的绝对值如果很大则意味着变量值变化很大并且他们同时距离各自的均值很远。如果协方差是正的,那么两个变量的取值倾向相同,要大一起大,要小一起小;如果协方差是负的,那么两个变量的取值倾向相反,一个变量倾向于取得相对较大的值的同时,另一个变量会倾向于取得相对较小的值;如果协方差是零,则两个变量的取值无任何关联。

详见下:

两个随机变量X和Y之间的相互关系,大致有三种情况:

  • 正相关
  • 负相关
  • 不相关

以下是三种情况下X和Y的联合分布:
协方差详解_第1张图片
正相关:很直观,X越大Y越大,X越小Y越小。

协方差详解_第2张图片
负相关:很直观,X越大Y越小,X越小Y越大,跟正相关相反。
协方差详解_第3张图片
不相关:X小的时候Y可大可小,X大的时候Y依然可大可小,反之亦然。

在上面的三张图中:

  • 对于区域(1), X > E X X > EX X>EX Y > E Y Y > EY Y>EY,那么 ( X − E X ) ( Y − E Y ) > 0 (X-EX)(Y-EY) > 0 (XEX)(YEY)>0
  • 对于区域(3), X < E X X < EX X<EX Y < E Y Y < EY Y<EY,那么 ( X − E X ) ( Y − E Y ) > 0 (X-EX)(Y-EY) > 0 (XEX)(YEY)>0
  • 对于区域(2), X < E X X < EX X<EX Y > E Y Y > EY Y>EY,那么 ( X − E X ) ( Y − E Y ) < 0 (X-EX)(Y-EY) < 0 (XEX)(YEY)<0
  • 对于区域(4), X > E X X > EX X>EX Y < E Y Y < EY Y<EY,那么 ( X − E X ) ( Y − E Y ) < 0 (X-EX)(Y-EY) < 0 (XEX)(YEY)<0

当X与Y正相关时,它们的联合分布大致在(1)和(3)中,小部分区域在(2)和(4)中,所以平均而言,其期望 E ( ( X − E X ) ( Y − E Y ) ) > 0 E((X-EX)(Y-EY)) > 0 E((XEX)(YEY))>0;

当X与Y负相关时,它们的联合分布大致在(2)和(4)中,小部分区域在(1)和(3)中,所以平均而言,其期望 E ( ( X − E X ) ( Y − E Y ) ) < 0 E((X-EX)(Y-EY)) < 0 E((XEX)(YEY))<0;

当X与Y不相关时,总体而言它们在(1)(3)和(2)(4)的分布大致相当,所以平均而言,其期望 E ( ( X − E X ) ( Y − E Y ) ) < 0 E((X-EX)(Y-EY)) < 0 E((XEX)(YEY))<0

这就是协方差的来源,它可以表示X和Y相互关系的数字特征:
C o v ( X , Y ) = E ( X − E X ) ( Y − E Y ) Cov(X, Y) = E(X-EX)(Y-EY) Cov(X,Y)=E(XEX)(YEY)

综上:
当Cov(X, Y) > 0,X和Y正相关;
当Cov(X, Y) < 0,X和Y负相关;
当Cov(X, Y) = 0,X和Y不相关。

补充

随机向量 x ∈ R n x\in \mathbb{R}^n xRn的协方差矩阵是一个 n × n n\times n n×n的矩阵,并且满足:
C o v ( x ) i , j = C o v ( x i , x j ) Cov(x)_{i,j} = Cov(x_i, x_j) Cov(x)i,j=Cov(xi,xj)

协方差矩阵的对角元是方差:
C o v ( x i , x i ) = V a r ( x i ) Cov(x_i,x_i) = Var(x_i) Cov(xi,xi)=Var(xi)

相关系数(Correlation coefficient)

相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量。

相关关系是一种非确定的关系,相关系数是研究变量之间线性相关程度的量。相关系数有多种定义方式,我们这里仅列举使用协方差定义的简单相关系数。

简单相关系数:又叫相关系数或者线性相关系数,一般用字母r表示,用来度量两个变量之间的线性关系.
r ( X , Y ) = C o v ( X , Y ) V a r [ X ] V a r [ Y ] r(X, Y) = \frac{Cov(X, Y)}{\sqrt{Var[X]Var[Y]}} r(X,Y)=Var[X]Var[Y] Cov(X,Y)

参考

  1. Deep Learning Chapter 3.8
  2. 百度百科词条:协方差、相关系数
  3. 终于明白协方差的意义了

你可能感兴趣的:(深度学习与机器学习)