统计学三大相关性系数(pearson、spearman、kendall)的区别。

三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。

person correlation coefficient(皮尔森相关性系数-r):

      两个变量(X, Y)的皮尔森相关性系数(ρX,Y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY),公式如下:

统计学三大相关性系数(pearson、spearman、kendall)的区别。_第1张图片

当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:

(1)、两个变量之间是线性关系,都是连续数据。

(2)、两个变量的总体是正态分布,或接近正态的单峰分布。

(3)、两个变量的观测值是成对的,每对观测值之间相互独立。

局限性:

实验数据通常假设是成对的来自于正态分布的总体,在求皮尔森相关性系数以后,通常还会用t检验之类的方法来进行皮尔森相关性系数检验。实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值的影响比较大。因为根据公式可以看到是直接是用x,y的值进行计算。相对应的spearman correlation对异常值不敏感,

spearman correlation coefficient(斯皮尔曼相关性系数-p)

      通常也叫斯皮尔曼秩相关系数。

“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行求解,而不是直接是用x,y的值进行求解(因此对异常值不敏感,也不要求正态分布)。

获得秩次:记下原始X Y值得排序位置(X’, Y’),(X’, Y’)的值就称为秩次

对两个变量(X, Y)的数据进行排序:

统计学三大相关性系数(pearson、spearman、kendall)的区别。_第2张图片

计算两个变量秩次的差值,也就是上面公式中的di,n就是变量中数据的个数

最后带入公式就可求解结果。

斯皮尔曼等级相关系数对数据条件的要求没有皮尔逊相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。

优势:

1)即便在变量值没有变化的情况下,也不会出现像皮尔森系数那样分母为0而无法计算的情况。

2)即使出现异常值,由于异常值的秩次通常不会有明显的变化(比如过大或者过小,那要么排第一,要么排最后),所以对斯皮尔曼相关性系数的影响也非常小

3)斯皮尔曼相关性系数没有数据条件要求,适用的范围广。

kendall correlation coefficient(肯德尔相关性系数-k)

      肯德尔相关性系数,又称肯德尔秩相关系数,经常用希腊字母τ(tau)表示其值,它也是一种秩相关系数,不过它所计算的对象是分类变量。分类变量可以理解成有类别的变量,可以分为无序的,通常需要求相关性系数的都是有序分类变量。肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。一个肯德尔检验是一个无参数假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性。肯德尔相关系数的取值范围在-1到1之间,当τ为1时,表示两个随机变量拥有一致的等级相关性;当τ为-1时,表示两个随机变量拥有完全相反的等级相关性;当τ为0时,表示两个随机变量是相互独立的

肯德尔相关系数与斯皮尔曼相关系数对数据条件的要求相同。

你可能感兴趣的:(概率论,算法)