协方差和相关系数

一、协方差

1、定义:用于衡量两个变量的总体误差。通俗的理解为两个变量在变化过程中是否同方向,公式如下:

                               Cov\left ( X,Y \right )= E\left [ \left ( X-E\left [ X \right ] \right ) \right\left ( Y-E\left [ Y \right ] \right ) ]

如公式所示,如果有X\left ( x_{1} ,x_{2},\cdots ,x_{n}\right ),Y\left ( y_{1},y_{2},\cdots ,y_{n} \right )两个变量,每个时刻,X值与其均值(E\left ( X \right ))之差Y值预期均值之差得到的值加和,再求均值(公式为:E\left [ X \right ]= \frac{\sum_{i=1}^{n}x_{i}}{n})。

若X变大,Y也变大,两个变量的变化是同向的,协方差为正值。

若X变大,Y变小,两个变量变化是反向的,协方差为负值。

协方差越大,两个变量之间的同向程度就越大。

2、作用:衡量两个随机变量之间的相互关系

二、相关系数

1、定义:研究变量之间相关程度的量,是协方差的标准化格式,公式如下:

                                                                     \rho =\frac{Cov\left ( X,Y \right )}{\sigma X\sigma Y}

分母为X,Y的标准差,具体公式可百度。

2、作用

仍可反映变量变化是否同向;

标准化后的协方差,消除了两个变量变化幅度的影响,只反应两个变量变化的相似程度。

三、协方差和相关系数的区别

若两个变量有不同的度量,协方差很难作比较,我们可以计算相关系数得到一个介于-1 和 1 之间的值,就能忽略它们各自不同的度量。

 

 

 

 

 

 

你可能感兴趣的:(机器学习)