期望、方差、协方差及相关系数的原理理解和计算

一、期望

定义:

  设P(x)是一个离散概率分布函数自变量的取值范围是。那么其期望被定义为:
                                                                  
   设P(x)是一个连续概率分布函数 ,那么他的期望是:                                                                             

性质:

1.线性运算:

   期望服从先行性质,因此线性运算的期望等于期望的线性运算:   

                                                

   我们可以把它推广到任意一般情况:
                                                

2.函数的期望:

 设f(x)是x的函数,则f(x)的期望为:

    离散:

                      

    连续:

                      

3.乘积的期望:

    一般来说,乘积的期望不等于期望的乘积,除非变量相互独立。因此,如果x和y相互独立,

                                                                                       

     期望的运算构成了统计量的运算基础,因为方差、协方差等统计量本质上是一种特殊的期望。


设C为一个常数,X和Y是两个 随机变量。以下是数学期望的重要性质:
1.E(C)=C
2.E(CX)=CE(X)
3.E(X+Y)=E(X)+E(Y)
4.当X和Y相互独立时,E(XY)=E(X)E(Y)
性质3和性质4可以推到到任意有限个相互独立的随机变量之和或之积的情况。

例子:

某城市有10万个家庭,没有孩子的家庭有1000个,有一个孩子的家庭有9万个,有两个孩子的家庭有6000个,有3个孩子的家庭有3000个。求一个家庭平均小孩的数目:
思路:则此城市中任一个家庭中孩子的数目是一个随机变量。它可取值0,1,2,3。 其中取0的概率为0.01(1000/10万),取1的概率0.9(9000/10万),取2的概率为0.06(6000/10万),取3的概率为0.03(3000/10万) 它的数学期望0×0.01+1×0.9+2×0.06+3×0.03等于1.11,即此城市一个家庭平均有小孩1.11个。 用数学式子表示为E(X)=1.11。

   


二、方差

定义:

方差是一种特殊的期望, 被定义为:

                              

离散型的方差:

             

                  

连续型的方差:

            

                 

以上两式是一样的,只是写法不同。
证明:由数学期望的性质得

性质:

1.设C是 常数,则D(C)=0
2.设X是随机变量,C是常数,则有
 
3.设 X 与 Y 是两个随机变量,则
其中协方差
 
特别的,当X,Y是两个不相关的随机变量(相互独立)则
此性质可以推广到有限多个两两不相关的随机变量之和的情况。

统计学意义:

方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根,用S表示。方差相应的计算公式为 (无偏性)。
       标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。

三、协方差

   定义:

 在概率论和统计学中,协方差用于衡量两个变量的总体误差。期望值分别为E[X]与E[Y]的两个实随机变量XY之间的协方差Cov(X,Y)定义为:
                                                              
                                                                                  
                                                                                  
                                                                                 

  特殊情况下,当X=Y时:

                     


从直观上来看,协方差表示的是两个变量总体误差的期望。
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果 XY是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足 E[ XY]= E[ X] E[ Y]。
但是,反过来并不成立。即如果 XY的协方差为0,二者并不一定是统计独立的。

性质:

(1)Cov(X,Y)=Cov(Y,X);
(2)Cov( aX, bY)= abCov(X,Y),( ab是常数);
(3)Cov(X 1+X 2,Y)=Cov(X 1,Y)+Cov(X 2,Y)。
由协方差定义,可以看出Cov(X,X)=D(X),Cov(Y,Y)=D(Y)。

四、相关系数

      协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。为此引入如下概念;

定义:

   
称为随机变量X和Y的(Pearson)相关系数。

性质:

1.若 ρXY=0,则称X与Y不线性相关。
2.即 ρXY=0的充分必要条件是Cov(X,Y)=0,亦即不相关和协方差为零是等价的。
3. 相关系数ρ XY 取值在-1到1之间,ρ XY  = 0时,称X,Y不相关;
 | ρ XY  | = 1时,称X,Y 完全相关 ,此时,X,Y之间具有线性函数关系;
 | ρ XY  | < 1时,X的变动引起Y的部分变动,ρ XY 的绝对值越大,X的变动引起Y的变动就越大;
 | ρ XY  | > 0.8时称为高度相关,当 | ρ XY  | < 0.3时称为低度相关,其它时候为中度相关。

五、参考资料

1.协方差、相关系数等百度百科

2.北航之张洋系列

你可能感兴趣的:(机器学习,期望,方差,协方差,相关系数,概率论)