方差 标准差_均值、方差、标准差、协方差、相关系数的概念及意义

一、均值(期望)、方差、标准差

下面给出这些概念的公式描述:

均值(期望):

方差:

标准差:

均值(期望)描述的是样本集合的中间点(平均值),但是它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。

以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的 均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8。标准差小的距离均值较为集中。标准差描述的就是这种 “散布度”
ps:之所以除以n-1而不是n,是因为这样能使我们以 较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

二、协方差和相关系数

要说协方差和相关系数,我们不得不提相关性,相关性是描述事物之间是否有关系的方法。

2.1有关系

专家表示,要买房的人越多(下图的城镇化率可以简单理解为进城买房的人数),房价就越高(数据来源):

方差 标准差_均值、方差、标准差、协方差、相关系数的概念及意义_第1张图片

从上图可以看出,房价与进城买房的人数成正比,两者的关系是正相关

城镇化除了推升城市房价之外,还有另外一个作用,降低出生率。城镇化和出生率之间的关系就是负相关

方差 标准差_均值、方差、标准差、协方差、相关系数的概念及意义_第2张图片

所以说,“城镇化是最好的避孕药”,不管在新加坡、日本、中国、美国都有这样的规律。城镇化一方面是推动买房人口的增加,一方面是出生人口的减少,那么未来房价会怎样?预测未来就是统计学家的重要工作。

2.2没关系

比如说买彩票,跟是否求神拜佛,是否洗手这些事没有关系的。

方差 标准差_均值、方差、标准差、协方差、相关系数的概念及意义_第3张图片

协方差、相关系数就是尝试找出两个随机变量之间具有什么样的关系。

2.3协方差

标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集。比如,一个人的身高和体重是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义,来度量各个维度偏离其均值的程度,所以协方差可以这样来定义:

协方差的结果有什么意义呢?

如果结果为正值,则说明两者是正相关的,也就是说一个人身高越高体重越重。
如果结果为负值, 就说明两者是负相关。
如果为0,则两者之间没有关系,身高和体重之间没有关联。

协方差容易受到数值大小的影响,如果

的值均扩大10倍,则
也会扩大,为了解决这个问题,我们把通常把协方差归一化,也就是相关系数。

2.4相关系数

相关系数消除了协方差 数值大小的影响。

对于

样本相关系数为:

其中

,
为标准差。
正相关: 0< r <=1
负相关: -1<= r <0
不相关: r=0 ,r=0代表不相关,并不一定独立。

相关文章:

马同学的文章中引入欧式距离和余弦距离来说明问题。尤其在3.3解释了样本相关系数就是余弦距离的论断,我不是很理解,2233。

https://blog.csdn.net/Tonywu2018/article/details/83902570​blog.csdn.net

你可能感兴趣的:(方差,标准差)