三大统计学相关系数讨论

  相关系数定义为两个向量之间的相似性,最常用的相关系数是皮尔森相关,但是实际情况更加复杂,因此我们介绍一下统计学中出现的相关系数。

 

一 皮尔森相关

 

皮尔森相关描述两个变量之间的线性相关

 

x,y 为两个变量。

适用条件:

1. 两个变量都是连续变量

2.  每个变量都应该是 正态分布,或者接近正态分布的单峰对称分布

3. 变量之间应该为线性关系

 

当对每个变量进行0均值后,相关性就与余弦距离相同

 

二 斯皮尔曼 相关

  斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”。

  斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究。

总而言之,斯皮尔曼相关的计算将原始数据替代为 数据在该序列中的位置。

 

三大统计学相关系数讨论_第1张图片

 

 

 

 

三 肯德尔 相关

楼主盗了一下图,

三大统计学相关系数讨论_第2张图片

三大统计学相关系数讨论_第3张图片

你可能感兴趣的:(机器学习,统计学习)