协方差矩阵

1.协方差矩阵的格式与意义

协方差矩阵为对称半正定矩阵。假定其格式为:

Cov=cov11cov21covn1cov12cov22covn2cov13cov23covn3cov1ncov2ncovnn

不同的元素代表这不同向量之间的相关性。当各向量经过白化操作,求得协方差矩阵后。协方差矩阵中元素的值越大,则说明对应下标的特征之间相关性越高。

2.求协方差矩阵

举个例子,求 covXY 的值。假定两个向量分别为 X Y ,其中 μx 为特征 X 的期望,而 μy Y 的期望,则

covXY=E[(Xμx)(Yμy)T]=mi=1(Xiμx)(Yiμy)m

其中 E 代表期望,而在一般的问题中特征的期望不容易得到,所以使用 m 个样本的均值去代替。公式如下:
covXY=mi=1(XiX¯¯¯)(YiY¯¯¯)m1

上式中分母为 m1 而非 m ,这是对样本协方差的无偏估计。

3.无偏估计

假定有 m 个样本,而 X Y 分别为样本中的特征向量,使用 μx μy 分别代表这两个特征的期望。使用 X¯¯¯ 以及 Y¯¯¯ 代表 m 个样本中这两个向量的平均值。
由于这两个特征的期望未知,则使用平均值进行代替。下述公式对其进行推导:

E[mi=1(XiX¯¯¯)(YiY¯¯¯)m]=E[mi=1((Xiμx)(X¯¯¯μx))((Yiμy)(Y¯¯¯μy))m]=E[mi=1(Xiμx)(Yiμy)mmi=1(Xiμx)(Y¯¯¯μy)mmi=1(X¯¯¯μx)(Yiμy)m+mi=1(X¯¯¯μx)(Y¯¯¯μy)m]=E[mi=1(Xiμx)(Yiμy)m(Y¯¯¯μy)mi=1(Xiμx)m(X¯¯¯μx)mi=1(Yiμy)m+(X¯¯¯μx)(Y¯¯¯μy)m]i=1m1=E[mi=1(Xiμx)(Yiμy)m]E[(X¯¯¯μx)(Y¯¯¯μy)]=convXYE[(mi=1(Xiμx)mi=1(Xiμy)]m2=convXYconvXYm

所以:
E[mi=1(XiX¯¯¯)(YiY¯¯¯)m]E[mi=1(XiX¯¯¯)(YiY¯¯¯)m1]=(m1)convXYm=convXY

由上可得使用部分样本估计协方差为:
mi=1(XiX¯¯¯)(YiY¯¯¯)m1=convXY

你可能感兴趣的:(统计学)