Xiang Li

文章目录

  • 1 样本均值
  • 2 样本方差
  • 3 协方差
  • 4 相关系数
  • 5 示例:数据集的相关系数计算

1 样本均值

2 样本方差

3 协方差

协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
从直观上来看,协方差表示的是两个变量总体误差的期望。
在这里插入图片描述

4 相关系数

Xiang Li_第1张图片

5 示例:数据集的相关系数计算

下面我们看个例子。我们计算下表中的四个数据集,分别计算相关系数,并画出散点图。
Xiang Li_第2张图片
相关系数只能刻画变量间线性关系的强弱。
相关系数会受到数据中一个或者几个离群值的显著影响
Matlab代码如下:

A=load('Data_Chap2_Anscombe.txt')
Cor_12=corrcoef(A(:,1),A(:,2))
Cor_34=corrcoef(A(:,3),A(:,4))
Cor_56=corrcoef(A(:,5),A(:,6))
Cor_78=corrcoef(A(:,7),A(:,8))
subplot(2,2,1)
scatter(A(:,2),A(:,1))
subplot(2,2,2)
scatter(A(:,4),A(:,3))
subplot(2,2,3)
scatter(A(:,6),A(:,5))
subplot(2,2,4)
scatter(A(:,8),A(:,7))

得到相关系数为

Cor_12 =
    1.0000    0.8164
    0.8164    1.0000

Cor_34 =
    1.0000    0.8162
    0.8162    1.0000

Cor_56 =
    1.0000    0.8163
    0.8163    1.0000

Cor_78 =
    1.0000    0.8165
    0.8165    1.0000

显然,尽管相关系数基本相等,但从下图散点图中可以看出,四组数据YY与XX的函数关系差别很大。因此在计算相关系数之前,考察散点图是非常有帮助的。
Xiang Li_第3张图片

你可能感兴趣的:(Machine,learning)