协方差、协方差矩阵的数学概念及算法计算

在讲解协方差之前,我们先一起回忆一下样本的均值、方差、标准差的定义。

协方差、协方差矩阵的数学概念及算法计算_第1张图片

方差,协方差和协方差矩阵

1、概念

方差(Variance)是度量一组数据的分散程度。方差是各个样本与样本均值的差的平方和的均值: 


协方差(Covariance)是度量两个变量的变动的同步程度,也就是度量两个变量线性相关性程度。如果两个变量的协方差为0,则统计学上认为二者线性无关。注意两个无关的变量并非完全独立,只是没有线性相关性而已。计算公式如下: 

如果协方差大于0表示一个变量增大是另一个变量也会增大,即正相关,协方差小于0表示一个变量增大是另一个变量会减小,即负相关。 
协方差矩阵(Covariance matrix)由数据集中两两变量的协方差组成。矩阵的第(i,j)(i,j)个元素是数据集中第ii和第jj个元素的协方差。例如,三维数据的协方差矩阵如下所示: 
协方差、协方差矩阵的数学概念及算法计算_第2张图片

2、练习

计算下表数据的协方差矩阵:

 协方差、协方差矩阵的数学概念及算法计算_第3张图片

Python代码如下:

可以由python中的numpy包计算均值和协方差:

import numpy as np
X = [[2, 0, -1.4],
    [2.2, 0.2, -1.5],
    [2.4, 0.1, -1],
    [1.9, 0, -1.2]]
print(np.mean(X,axis=0))
print(np.cov(np.array(X).T))

计算结果如下:

你可能感兴趣的:(机器学习,Python)