协方差与协方差矩阵

引言:

最近在看主成成分分析(PCA),其中有一步是计算样本各维度的协方差矩阵。

先找些资料复习总结如下:

协方差:

 通常,提到方差时需要对其进一步区分。(1)随机变量的协方差。跟数学期望,方差一样,

是分布的一个总体参数。(2)样本的协方差。是样本集的一个统计量,可作为联合分布总体参数的

一个估计。在实际中计算的通常是样本的协方差。

在概率论和统计中,协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量

越线性相关,协方差越大, 两个变量完全线性无关,协方差为零。定义如下:

                                               

 当X,Y是同一个随机变量时,X与其自身的协方差就是X的方差,可以说方差是协方差的一个特例。

                            协方差与协方差矩阵_第1张图片

由于随机变量的取值范围不同,两个协方差不具备可比性。如X,Y,Z分别是三个随机变量,

想要比较X与Y的线性相关程度强,还是X与Z的线性相关程度强,通过cov(X,Y)与cov(X,Z)

无法直接比较。定义相关系数:

                                                   

通过X的方差var(X)var⁡(X)与Y的方差var(Y)var⁡(Y)对协方差cov(X,Y)cov⁡(X,Y)归一化,得到相关系数η,η的取值范围是[−1,1][−1,1]。1表示完全线性相关,−1表示完全线性负相关,0表示线性无关。线性无关并不代表完全无关,更不代表相互独立。

 

样本的协方差:

在实际中,通常我们手头会有一些样本,样本有多个属性,每个样本可以看成一个多维随机变量

的样本点,我们需要分析两个维度之间的线性关系。协方差及相关系数是度量随机变量间线性关系

的参数,由于不知道具体分布,只能通过样本来进行估计。

协方差与协方差矩阵_第2张图片

 

协方差矩阵( 多维随机变量的协方差矩阵)

协方差与协方差矩阵_第3张图片

协方差与协方差矩阵_第4张图片

 

样本的协方差矩阵:

协方差与协方差矩阵_第5张图片

 

协方差与协方差矩阵_第6张图片

 

 

 

 

 

你可能感兴趣的:(人工智能基础理论)