关于相关系数的一些理解误区

关于相关系数的一些理解误区,这篇文章 讲的很好,正如这个网站的名字mathsisfun一样,full of cases, pics and fun :)


我想补充我认为非常重要的几点:

一般我们讲的相关系数,其实叫 皮尔逊相关系数,学名 皮尔逊积差系数(Pearson's product moment coefficient)

In statistics, the Pearson product-moment correlation coefficient is a measure of the linear correlation (dependence) between two variables X and Y, giving a value between +1 and −1 inclusive, where 1 is total positive correlation, 0 is no correlation, and −1 is total negative correlation. It is widely used in the sciences as a measure of the degree of linear dependence between two variables. 

--from wiki

计算公式如下:




注意红色标注的"linear", 我想强调的是:
这里的相关系数只是用来衡量两个变量线性相关程度的指标;
也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能告诉你他俩相关程度如何

反之不成立:
  • 比如你先算出相关系数=0.9,就下结论说两个变量线性相关是不对的,甚至说两个变量相关(有某种更复杂的关系)也是不对的(见:case 1
  • 另外,如果算出来相关系数=0,下结论说两个变量不是线性相关是ok的,但说他们完全不相关就得小心了,很有可能不对(见:case 2

case 1:


Four sets of data with the same correlation of 0.816

The image on the right shows scatterplots of Anscombe's quartet, a set of four different pairs of variables created by Francis Anscombe

--from wiki


  1. 如图(右上)所示,非线性相关也会导致线性相关系数很大
  2. 好吧,你退一步,转而问:如果两个变量的相关系数很大(0.816),那能不能说两者相关呢? 答案还是不能,为什么? 因为如图(右下所示,很可能是一个离群点(outlier)导致了相关系数变得很大。
  3. 这也不能那也不能,那怎么办?(你一定要画出图来看才行,后面会深入解释

case 2:





上图的相关系数计算结果为0,但你能说冰激凌的销量和温度不相关吗? 
所以, pearson correlation coefficient = 0只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关)
 

下面是wiki对于误解的进一步解释

“The Pearson correlation coefficient indicates the strength of a linear relationship between two variables, but its value generally does not completely characterize their relationship.”

“皮尔逊相关系数 其实是衡量 两个变量线性相关程度大小的指标,但它的值的大小并不能完全地反映两个变量的真实关系。”

如果我再罗嗦一遍你也许会就更明白了:

如果两个变量本身就是线性的关系,那么皮尔逊相关系数ok没问题,绝对值大的就是相关性强,小的就是相关性弱;
但在你 不知道 这两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量 线性相关 ,甚至不能说他们 相关 ,你一定要 画出图来看 才行,这就是为什么我们说 眼见为实 数据可视化 的重要性。

大概就酱紫,你现在是不是觉得皮尔逊相关系数特没用?!(皮尔逊相关系数说:起码比某些人有用得多,哈哈)


另外,需要留意的是:

     1. 只有当两个变量的标准差都不为零,相关系数才有意义。
     2. 在实际应用中,比如协同过滤中,如果一个电影只有一个评分,相关系数也没有意义。


最后,还需要特别留意的是:

即使两个变量相关,也不代表两者有因果关系,应该牢记 【相关非因果】 ,因为:
     1. 一种情况有可能是 A导致了B和C, 你计算发现B和C相关,认为 B导致了C, 其实不是;
     2. 还有一种情况是 B和C本身毫无关系,就像文中举的“学课外课和生病的关系”的例子,但是统计发现相关系数就是很大, 这有多种可能,有可能是一个你还不知道的原因A导致B和C(如果真发现A的话,将是个很好的知识发现), 也有可能本身就是统计出错了,所以具体问题要具体分析。


further reading:

1. 开篇那篇很有趣的文章  http://www.mathsisfun.com/data/correlation.html 
2. 关于 correlation coefficient 与 linear regression的关系 http://mathworld.wolfram.com/CorrelationCoefficient.html
3. 关于相关性大小的解释 http://mathbits.com/MathBits/TISection/Statistics2/correlation.htm

你可能感兴趣的:(大数据分析)