几个相关系数:Pearson、Spearman、pointbiserialr、kendalltau



http://baike.baidu.com/link?url=rkocJKJhSEL0UO-iCqg8n76fhNKotOlC4zj3yGbPgahDRZa2AqNv_7FxUOlk0Cb8Y9wlkJAnVRzq3AsDNZfKUK

皮尔逊相关系数(Pearson correlation coefficient)

在统计学中,皮尔逊 相关系数(Pearson correlation coefficient),通常用r或是ρ表示,是用来度量两个变量X和Y之间的相互关系( 线性相关)的,取值范围在[-1,+1]之间。皮尔逊积矩相关系数在学术研究中被广泛应用来度量两个变量线性相关性的强弱,它是由Karl Pearson在19世纪80年代从Francis Galton介绍的想法基础发展起来的,但是发展后原想法相似但略有不同的,这种相关系数常被称为“Pearson的r”。
对于随机变量 XY的相关性求解公式为:
   
,其中 Cov( X, Y)代表 XY的协方差, Var( X)和 Var( Y)代表 XY的方差。当相关性为1时, XY的关系可以表示为 Y= aX+ b,其中 a>0;当相关性为-1时, XY的关系可以表示为 Y= aX+ b,其中 a<0。如果 XY相互独立,那么相关性为0。


http://baike.baidu.com/link?url=Kh6DLe6DJa2xDGrEJ9rllzU_ou6F6uNyOzG8Eg12zFu_eYrbyu7-GuJMPspeNNhdZoBO-YT88rJ0M7GNRWiX8a

斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)

斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导而来,一些人把斯皮尔曼等级相关看做积差相关的特殊形式。

公式
n为等级个数
d为二列成对变量的等级差数





http://bbs.pinggu.org/thread-479730-1-1.html

1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,
  就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数。

用pearson处理的数据,必须满足一下条件:成对数据、连续、整体是正态分布的。

其实, Spearman 和Pearson相关系数在算法上完全相同. 只是PEARSON相关系数是用原来的数值计算积差相关系数, 而SPEARMAN是用原来数值的秩次计算积差相关系数.


http://blog.csdn.net/wsywl/article/details/5859751

由排行差分集合d计算而得(公式一):

由排行集合x、y计算而得(斯皮尔曼等级相关系数同时也被认为是经过排行的两个随即变量的皮尔逊相关系数,以下实际是计算x、y的皮尔逊相关系数)(公式二):




pointbiserialr:measure the relationship between a binary variable, x, and a continuous variable, y. 

http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pointbiserialr.html#scipy.stats.pointbiserialr

kendalltau:等级相关系数,适用于两个变量均为有序分类的情况

http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kendalltau.html#scipy.stats.kendalltau






你可能感兴趣的:(机器学习——数学基础,几个相关系数,Pearson,Spearman,pointbiserialr,kendalltau)