#工具杂谈#如何选择合适的相关性分析方法

今天中午,西安某个忙于毕业的苦逼博士让我帮他做个 相关性分析 ,不由得让编者想起了去年去一个测序公司面试时面试官问我的一个问题: Pearson相关性系数和Spearman相关性系数的区别是什么 ,当时我还真不知道有什么区别,于是就被pass掉了。为了避免以后面试再被问到这个相同问题并且被pass掉,编者查了一些文献及资料,希望对大家有所帮助(投文章的时候有的编辑会问你为什么选择Spearman而不是Pearman,或者你为什么用Pearman而不是Spearman)。

先从概念来说,两变量之间的Pearson相关系数被定义为他们的协方差除以标准差的乘积。Spearman相关性系数被定义为秩(有序)变量之间的Pearson相关系数。好像什么都没说,这里也就不放什么复杂的数学公式了,区别如下:

  • Pearson相关系数呈现 连续型正太分布变量 之间的 线性 相关关系
  • Spearman相关系数 不要求正太连续但至少是有序 的,呈现 非线性 相关。

编者以前的 误区 有两个:

误区一:必须是正太分布的数据才可以计算Pearson相关系数。

解读:只要两变量的协方差和方差存在,就可以计算这两变量的Pearson相关系数,并不需要这两变量的数据符合正太分布。那又和数据正太分布有什么关系呢?

是这样,在双变量正太分布的情况下,样本相关系数是整体相关系数的最大似然估计,并且是渐进无偏和有效的,也就是说样本的相关性很好的反应了整体的相关性,是非常有效的;而对于非正太分布变量,样本相关性系数依然是渐进无偏的,但可能并非有效的,这意味着样本的相关性能够表示你的样本变量直接是相关的,但不能反应整体中这两变量是否依然相关。

误区二:同样的数据计算Spearman相关系数要大于Pearson相关系数

解读:这完全是经验之谈,当存在离群值的情况下,Pearson相关系数有可能要大于Spearman相关系数,但一般在有离群值存在的条件下应该选用Spearman相关系数。

总结: 在相关性分析中该如何选择这合适的相关性系数呢,首先看数据分布是否符合正太分布,如果符合正太分布就用Pearson;如果不符合或者不知道,先查看是否有离群值存在(一般是大于1.5被的3/4分位数-1/4分位数的值),如果有离群值,那就选择Spearman,如果没有离群值,还是选择Pearson;在数据集被截断的情况下不应使用Spearman相关性系数,也就是说,截取前多少条数据或只取后面多少条数据计算相关性时,应该使用Pearson相关系数。

最后是关于相关性系数高低的评估 ,如下图,是根据 经验法则 得出的结论,但即使是经验法则也可以在文章中引用(PMC3576830),也许有人就问了,我得到相关性系数0.69就不算高相关了?WTF,这和P<0.05是一个德行的,P=0.051就不显著? 一刀切式的阈值处理方式 可能真的需要进行改变了。

#工具杂谈#如何选择合适的相关性分析方法_第1张图片

更多原创精彩内容敬请关注生信杂谈:

#工具杂谈#如何选择合适的相关性分析方法_第2张图片

你可能感兴趣的:(#工具杂谈#如何选择合适的相关性分析方法)