协方差和协方差矩阵

均值与方差

均值:

方差:

均值、方差和标准差可用于描述数据的集中趋势和离散程度。

协方差

方差一般用来描述一维数据,而实际上我们接触的数据集大多是多维的。

此时可以用协方差来度量两个随机变量之间的关系。

参照方差的定义:

度量两个随机变量关系的协方差可以这样定义:

两个随机变量越线性相关,协方差越大,完全线性无关,协方差为零。

相关系数

由于随机变量的取值范围不同,两个协方差不具备可比性。

如是三个不同的随机变量,想要比较与的线性相关程度强还是与的线性相关程度强,通过和是无法比较得知的。

我们可以定义一个相关系数:

通过对协方差归一化,得到相关系数,取值范围为[-1,1]。1表示完全线性正相关,-1表示完全线性负相关,0表示线性无关。

协方差矩阵

对于多维数据,往往需要计算各维度两两之间的协方差,这样各协方差组成了一个n x n的矩阵,称为协方差矩阵。协方差矩阵是个对称矩阵对角线上的元素是各维度上随机变量的方差

定义协方差矩阵为:
C= \left[ \begin{matrix} cov(X_1,X_1) & cov(X_1,X_2) & \cdots & cov(X_1,X_n) \\ cov(X_2,X_1) & cov(X_2,X_2) & \cdots & cov(X_2,X_n) \\ \vdots & \vdots & \ddots & \vdots \\ cov(X_n,X_1) & cov(X_n,X_2) & \cdots & cov(X_n,X_n) \\ \end{matrix} \right]

参考

StatQuest-Covariance and Correlation(视频)
协方差与协方差矩阵
均值,方差和协方差矩阵

你可能感兴趣的:(协方差和协方差矩阵)