Kendall相关系数详解-案例版

上周总结了pearson相关系数、spearman相关系数,这周接着总结kendall相关系数。

不过这次主要总结Kendall相关系数本身,所以不太用得到R,随便用Excel列举几个例子,最后拿R验证一下好了。

首先说Kendall相关系数是对于定类变量的统计,之前讲pearson是对定距变量的统计,而spearman是对定序变量的统计,这几种变量的区别之处在文中有大致描述,如写的不够详尽,大家可自行查阅统计学基础教材。

举个例子说一下这三者分别适用的情况,主要说一下kendall,毕竟其他两个上期已经讲过了。比如10个病人做检查,检查结果数据如下:

Kendall相关系数详解-案例版_第1张图片

a身高与体重的相关性,pearson相关系数

b身高与病情程度的相关性,spearman或者kendall相关系数

c性别与身高的相关性,Kendall相关系数

d性别与病情程度的相关性,Kendall相关系数

像b情况为什么两者都适用呢?是因为此时初步诊断这个变量即可以看作定类变量,也可以看作定序变量,至少我个人是这么理解的,但有兴趣和有空闲的同学不妨试验一下结果如何。

然后说Kendall相关系数的计算公式,翻阅资料,据说有三个:


Kendall相关系数详解-案例版_第2张图片

公式3就算了,请各位看官老爷到其他人的文章或者正规教材里瞅瞅,我不是很理解,也不敢乱写。

第一个和第二个公式的区别在于,当两变量任何一个中都不存在相同元素时用公式1,两变量中任何一个中存在相同元素用2。

接下来讲这两个公式,就来算一下性别和身高的相关性吧。

首先先用r跑个结果看看。在此提醒一下,相关性的测量是基于数据的,就是两变量都是数据才能计算其相关性,如下是不可行的:


Kendall相关系数详解-案例版_第3张图片

性别请先自行转换成数值比如0和1,再进行计算,正确的结果是这样的:

接下来直接在Excel里推导一下公式,看看结果是怎么来的吧。

首先两个变量都是存在相同元素的,显然此结果是公式2的计算结果。

公式2的C-D,C表示的是两变量中一致性元素的对数,D是不一致性元素的对数。先上图,按身高排了个序:


Kendall相关系数详解-案例版_第4张图片

再举例,一致性C:

比如病人1的性别0<病人2的性别1,且身高130<病人2的身高145,则病人1、2是一致性的1对,解释起来即病人1、2的性别和身高的排序或称之为序列是一致的。

同理,病人1与病人10、6、9、7都能结成一致性的对,这时一致性对数已经等于5.

那么同理,病人5与病人2、10、6、9、7,病人8与病人6、9、7,病人3与病人7,病人4与病人7都是一致的。

这么加起来C=15.

不一致性D:

比如病人2的性别1>病人8的性别0,而身高145<病人8的156,则病人2、8是不一致的一对。

就不继续往下同理了,反正加起来D=10.

即不是一致,也不是不一致:

比如病人1的性别0=病人5的性别0,比如病人2的性别1=病人10的性别1,比如病人6、9性别身高都相等,那么他们既不是一致的,也不是不一致的。

所以这么看其原理,跟spearman倒有点相似,都是基于对变量的顺序进行的分析。

再说N3,N2,N1。


N=样本数目10。

N2、N1就比较复杂,它们各指向一个变量,随便吧比如N2指向性别:


s是指性别中拥有相同元素的小集合的个数,显然是2个,第1个集合是5个0,第2个集合是5个1,v就是每个集合中元素的个数,显然2个集合中元素的个数都是5,N2=20.

N1与N2一样的公式,只是它指向身高,那身高中拥有相同元素的小集合就1个,集合中就2个元素,所以N1=1.

以上,各代入,计算出结果就行。

有描述不够详尽或者有误之处,欢迎指正。

你可能感兴趣的:(Kendall相关系数详解-案例版)