三大统计学相关系数(pearson、kendall、spearman)

一、皮尔逊相关系数

前边文章讲了很多了,这里不详细讲了,想了解的可以看这篇。
相似度计算(2)——皮尔逊相关系数

适用范围:
当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:
  (1) 两个变量之间是线性关系,都是连续数据。
  (2) 两个变量的总体是正态分布,或接近正态的单峰分布。
  (3) 两个变量的观测值是成对的,每对观测值之间相互独立。

二、斯皮尔曼等级相关系数

  斯皮尔曼等级相关系数(Spearman’s rank correlation coefficient),被定义成等级变量之间的皮尔逊相关系数。对于样本容量为n的样本,n个原始数据被转换成等级数据(做排序),然后再根据公式进行计算。

  当没有位次相同的数据时,计算公式:
三大统计学相关系数(pearson、kendall、spearman)_第1张图片
其中:di 表示第i个数据对的位次值之差(即di=Ri-Si),n表示观测样本总数。

  如果观测样本中存在位次相同的数据,则需要使用如下计算公式(和皮尔逊相关系数公式中的一个一样):
三大统计学相关系数(pearson、kendall、spearman)_第2张图片
注:以上所说的Ri和Si是将R和S从大到小(或从小到大)排列后的顺序。

  如何理解位次?
:若存在di=0的情况,则说明存在相同位次,反之,则位次都不相同。

适用范围:
  只要两个变量的观测值是成对的等级评定资料(即R和S长度相同),或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关系数来进行研究。

spearman和pearson使用选择:
  1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,就是效率没有pearson相关系数高。
  2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
  3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。

三、肯德尔等级相关系数

  肯德尔等级相关系数(kendall correlation coefficient),也称kendall秩相关系数。

定义:
  n个同类的统计对象按特定属性排序,其他属性通常是乱序的。同序对(concordant pairs)和异序对(discordant pairs)之差与总对数(n*(n-1)/2)的比值定义为Kendall(肯德尔)系数。

计算公式:
  R=(P-(n*(n-1)/2-P))/(n*(n-1)/2)=(4P/(n*(n-1)))-1
三大统计学相关系数(pearson、kendall、spearman)_第3张图片
  由上图可知,A语文成绩最高,但数学排名为 3,比数学排名为 4和5 的成绩高,贡献5个同序对,即AB和AE。同理,我们发现B、C、D、E分别贡献1、2、1、0个同序对。因此可知:
同序对数:P = 2 + 1 + 2 + 1 + 0 = 6。
异序对数:Q = 10 - 6 = 4 (总对数减去同序对数为异序对数)
因而R=(4 * 6 / (5 * (5 - 1))) -1 = 24 / 20 -1 = 0.2。这一结果显示出强大的排名之间的规律,符合预期。

特性:
  (1) 如果两个属性排名是相同的,系数为1 ,两个属性正相关。
  (2) 如果两个属性排名完全相反,系数为-1 ,两个属性负相关。
  (3) 如果排名是完全独立的,系数为0。

适用范围:
  只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,都可以用肯德尔等级相关系数来进行研究。

你可能感兴趣的:(其他,概率论,线性代数)