标准差,协方差,相关系数

1. 标准差

标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度

公式为

need-to-insert-img

简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。



2.协方差

https://www.zhihu.com/question/20852004

可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?

Cov(x,y) =E[(x-ux)*(y-yx)]

公式简单翻译一下是:如果有X,Y两个变量,每个时刻的“X值与其均值之差”乘以“Y值与其均值之差”得到一个乘积,再对这每时刻的乘积求和并求出均值(其实是求“期望”,但就不引申太多新概念了,简单认为就是求均值了)。


3. 相关系数

对于相关系数,我们从它的公式入手。一般情况下,相关系数的公式为:

need-to-insert-img

翻译一下:就是用X、Y的协方差除以X的标准差和Y的标准差。

所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。

既然是一种特殊的协方差,那它

1、也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。

2、由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而

只是单纯反应两个变量每单位变化时的相似程度

它只能在+1到-1之间变化


首先,还是承接上文中的变量X、Y变化的示意图(X为红点,Y为绿点),来看两种情况:

你可能感兴趣的:(标准差,协方差,相关系数)