概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关

方差和标准差:

一个随机变量\textup{x}\textup{x}的值的变化程度可以用方差计算:

\textup{Var}(\textup{x})=\textup{E}[(x-E[\textup{x}])^{2}] ;其中E[\textup{x}] 是期望。

另外一种等价表达式:

概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关_第1张图片     其中\mu为均值,N为总体例数

我们举个例子:

\textup{x}服从均一分布,\textup{x}取值为0.1,0.2,0.3,0.4,0.5 ,每种值的概率是20%,可算出期望是0.3,那么方差就是:

\textup{Var}(\textup{x})=\textup{E}[(x-E[\textup{x}])^{2}]\\ =0.2*(0.1-0.3)^{2}+0.2*(0.2-0.3)^{2}+0.2*(0.3-0.3)^{2}+0.2*(0.4-0.3)^{2}+0.2*(0.5-0.3)^{2}\\ =0.2*0.1

标准差是方差的平方根,随机变量\textup{x}的标准差是\sqrt{0.2*0.1}

此处为了方便,计算方差和标准差时,分母是N,计算的是总体方差和总体标准差。(在实际应用中,因为样本是抽样样本,计算方差和标准差时,分母应是N-1,也就是说计算的是样本方差和样本标准差。)

协方差:

协方差可以用来衡量两个变量的线性相关性,并且可以化简到容易计算的形式(化简过程有问题可以找下证明或者举个例子亲自算一下):

\textup{Cov}(\textup{x,y})=\textup{E}[(x-E[\textup{x}])(y-E[\textup{y}])]\\ \\=\textup{E}[\textup{xy}]-2\textup{E}[\textup{x}]\textup{E}[\textup{y}]+\textup{E}[\textup{x}]\textup{E}[\textup{y}]\\\\ =\textup{E}[\textup{xy}]-\textup{E}[\textup{x}]\textup{E}[\textup{y}]

我们举第一个例子: 

\textup{x}服从均一分布,\textup{x}取值为0.1,0.2,0.3,0.4,0.5 ,每种值的概率是20%,可算出期望是0.3,标准差是\sqrt{0.2*0.1}

\textup{y}服从均一分布,\textup{y}取值为10000,20000,30000,40000,50000 ,每种值的概率是20%,可算出期望是30000,标准差是\sqrt{0.2*1000000000}

假设 \textup{x}和 \textup{y} 线性相关,此时 \textup{y}=100000\textup{x},那么\textup{x}取0.1\textup{y}取10000的概率为0.2,\textup{x}取0.1\textup{y}取20000、30000、40000、50000的概率都为0,以此类推。

\textup{x}\textup{y}的协方差就是:

\textup{Cov}(\textup{x,y})=\textup{E}[\textup{xy}]-\textup{E}[\textup{x}]\textup{E}[\textup{y}]\\ =0.2*(0.1*10000)+0.2*(0.2*20000)+0.2*(0.3*30000)+0.2*(0.4*40000)+0.2*(0.5*50000)-0.3*30000\\ =0.2*55000-0.3*30000\\ =2000

我们再举第二个例子:

把上个例子中的随机变量\textup{y}改变,随机变量\textup{x}不改变。

\textup{y}服从均一分布,\textup{x}取值为1,2,3,4,5 ,每种值的概率是20%,可算出期望是3,标准差是\sqrt{0.2*10}

假设 \textup{x}和 \textup{y} 线性相关,此时 \textup{y}=10\textup{x},那么\textup{x}取0.1\textup{y}取1的概率为0.2,\textup{x}取0.1\textup{y}取2、3、4、5的概率都为0,以此类推。

\textup{x}\textup{y}的协方差就是:

\textup{Cov}(\textup{x,y})=\textup{E}[\textup{xy}]-\textup{E}[\textup{x}]\textup{E}[\textup{y}]\\ =0.2*(0.1*1)+0.2*(0.2*2)+0.2*(0.3*3)+0.2*(0.4*4)+0.2*(0.5*5)-0.3*3\ =0.2*5.5-0.3*3\\ =0.2

两个例子对比一下,两个例子中的两个随机变量都是线性相关的,求出来的协方差都大于0,但是两个协方差的数值有较大差异,相差了10000倍。

皮尔逊相关系数:

皮尔逊相关系数是两个随机变量 \textup{x}和 \textup{y}的协方差与标准差之商:

\rho _{\textup{x}\textup{y}}=\frac{Cov(\textup{x,y})}{\sigma \textup{x}\sigma \textup{y}}

我们可以计算上述两个例子里的皮尔逊相关系数:

第一个例子:

概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关_第2张图片

第二个例子:

概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关_第3张图片

皮尔逊相关系数都为1。

协方差、皮尔逊相关系数与线性相关

完全线性相关、线性相关、线性独立、完全独立:

如果变量\textup{y}可以用\textup{x}表示成 \textup{y=ax+b},那么两个随机变量完全线性相关,否则不是完全线性相关。不是完全线性相关的两个变量有可能线性相关,有可能线性独立。如果两个变量有一定的线性关系,那么两个变量线性相关;如果\textup{x}\textup{y}没有任何关系(完全独立)或者左右对称的线性关系可以抵消掉,那么两个变量线性独立。我们举一些例子。

完全线性相关的例子:

如果\textup{y=2x+1},点集如散点图所示,那么概率矩阵和计算协方差如下,协方差为4大于0(绿色部分值的加和),皮尔逊系数为1:

概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关_第4张图片                     概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关_第5张图片

线性相关的例子:

如果\textup{y=x}^{2},点集如散点图所示,那么概率矩阵和计算协方差如下,协方差为12大于0,皮尔逊系数为0.98:

概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关_第6张图片                   概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关_第7张图片

线性独立的例子:

仍然是\textup{y=x}^{2},取不同的数值再算一下,点集如散点图所示,协方差为0,皮尔逊系数为0,此时左右对称的线性关系可以抵消掉:

概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关_第8张图片                 概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关_第9张图片

线性独立的另外一个例子,点集如散点图所示,此时\textup{x}和 \textup{y} 完全独立,协方差为0,皮尔逊系数为0:

概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关_第10张图片                  概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关_第11张图片

通过上述例子可以看出,当两变量线性独立时,协方差一定等于0;当协方差等于0时,两变量也一定线性独立,但是并不代表两变量完全独立(完全独立的例子)。

下图是皮尔逊相关系数的一个图示便于理解:

概率论:方差、标准差、协方差、皮尔逊相关系数、线性相关_第12张图片

 总结

如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

协方差和皮尔逊相关系数都可以衡量两个随机变量的线性相关性(注意只是线性相关性),协方差受随机变量数值大小的影响,而皮尔逊相关系数不受随机变量数值大小的影响。所以两随机变量的协方差越大并不代表这两个变量越线性相关,而两随机变量的皮尔逊相关系数绝对值越大这两个变量越线性相关。

协方差的范围是[-\infty ,\infty ];协方差<0时,线性负相关;协方差>0时,线性正相关;协方差=0时,线性独立。皮尔逊相关系数的范围是[-1,1];当为-1时,完全线性负相关;当为1时,完全线性正相关;当>-1且<0时,线性负相关,绝对值越大越线性负相关;当>0且<1时,线性正相关,绝对值越大越线性正相关;当=0时,线性独立。

你可能感兴趣的:(机器学习,人工智能,概率论,数学,算法)