统计学三种相关系数【pearson、spearman、kendall】

1. pearson

在这里插入图片描述
pearson系数的取值范围为 [ − 1.0 , 1.0 ] [-1.0,1.0] [1.0,1.0]之间,接近0表示无相关性,接近1或-1表示强相关

  • 皮尔森相关性系数对数据的要求较高:
    (1)实验数据通常假设是成对地来自正态分布的总体。因为在求得皮尔森相关性系数之后,通常会用t检验之类的方法来进行皮尔森相关性系数检验,而t检验是基于数据呈正太分布的假设。
    (2)实验数据之间的差距不能太大,或者说皮尔森相关性系数受异常值影响较大。

ps:分母部分是两个变量的标准差之积,不能为0。因此任何一个变量都不能是恒定不变的。

2. spearman

在这里插入图片描述
n n n表示数据总量, d i = r g ( X i ) − r g ( Y i ) d_i=rg(X_i)-rg(Y_i) di=rg(Xi)rg(Yi)表示两种数据次序的差值。斯皮尔曼相关性系数的范围为 [ − 1 , 1 ] [-1,1] [1,1]

  • 简介:斯皮尔曼相关性系数,通常也叫斯皮尔曼秩相关系数,是一种等级相关系数。用于衡量两个变量的依赖性非参数指标,常用希腊字母 ρ ρ ρ表示。利用单调方程评价两个统计变量的相关性。若数据中没有重复值,并且当两个变量完全单调相关时,斯皮尔曼相关性系数为+1或-1。这里的“秩”可以理解为一种顺序或排序。即斯皮尔曼相关性系数的值是与两种变量的排序相关的,因此这种表示没有皮尔森的那些限制。

  • 计算:
    对两组数据分别进行排序,每个数据排序后的位置称为秩次,秩次次的差值就是 d i d_i di
    统计学三种相关系数【pearson、spearman、kendall】_第1张图片
    在计算斯皮尔曼系数时,不需要计算两个变量的值究竟相差多少,只需计算每个值所处的位置的差值便可以求解。另外,斯皮尔曼系数可以很好地处理变量值没有变化的情况,而且即使出现了异常值,对于斯皮尔曼的相关性系数的影响也非常小,因为异常值通常过大或过小,秩次不会发生明显的变化。

此外,斯皮尔曼由于计算要求不高,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究,因此适用的范围很广。尤其是在生物实验数据分析中,适用频率很高。

3. kendall

  • 简介:肯德尔相关性系数,又称肯德尔秩相关性系数,也是等级相关性系数,常用希腊字母 τ τ τ表示,取值范围 [ − 1 , 1 ] [-1,1] [1,1] τ = − 1 τ=-1 τ=1表示两个随机变量拥有完全相反的等级相关性; τ = 0 τ=0 τ=0表示两个随机变量是相互独立的
  • 计算
    (1)公式1
    在这里插入图片描述
    C表示XY中拥有一致性的元素对数(两个元素为一对);D表示XY中拥有不一致性的元素对数。公式一仅适用于集合X与Y中均不存在相同元素的情况(元素唯一)
    (2)公式2
    在这里插入图片描述
    适用于集合X或Y中存在相同元素的情况(当X和Y中均不存在相同元素,则公式2等同于公式1)
    在这里插入图片描述
    (3)公式3
    在这里插入图片描述
    公式3没有再考虑集合X或Y中存在相同元素为最后的统计值带来的影响,仅适用于用表格表示的随机变量X,Y之间的相关系数的计算

你可能感兴趣的:(杂集,数据分析)