相关系数评价标准的相关知识

作者:niaocu
链接:https://www.zhihu.com/question/51784983/answer/127640857
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

说来话长,正好我讲过这一章,所以就从课件中复制粘贴过来(资料来源是David S. Moore的 《统计学的世界》),我尽量剪短一点(主要是公式太难粘贴,相信你可以在任何一本统计学书上找到下文所涉及的公式)。如果嫌前面背景介绍太麻烦,请直接到最后一段——

线性关系straight-line)是相当重要的一种变量间的关系——它虽然简单但却很普遍。如果(散点图)中的点越接近一条直线,那么线性关系就越强,如果越散乱,则线性关系越弱。有一种数字方法可以帮助我们描述这种线性相关关系有多强,这个数字就是correlation——相关系数r(计算公式略)。。。


------相关系数背景知识-----

相关系数的含义 Understanding Correlation

比计算r(a task for a machine)更重要的是了解correlation是如何衡量相关关系。以下是关于r的几个事实:

r正号正相关、负号负相关(Positive r indicatespositive association between the variables, and negative r indicates negativeassociation.)。

r值介于[-1, 1]之间(The correlation r always fallsbetween –1 and 1)。r值越接近0,相关度越弱(等于0,线性无关),随着r值往-1或1移动,相关度增强,越接近-1或1,则points越接近一条直线。如果是取到极端值(r = -1和r = 1),则散点图的points就是在一条直线上。
rx, y变量的单位无关,改变变量的单位并不影响它们之间的相关关系(Becauser use standard scores, the correlation between x and y does notchange when we change the units of measurement of x, y, or both)。r本身没有单位。

r不对自变量和因变量进行区分(Correlation ignoresthe distinction between explanatory and response variables)。如果对调我们对xy的选择,r仍旧不变。

r只衡量两个变量之间线性相关关系(straight-line association)的强弱。但无法描述两个变量间的曲线关系(curved relationships),不论这种曲线关系有多强。——即使r显示两个变量间线性无关,也无法断定两个变量间没有线性以外的关系。


----相关系数深入知识----

Correlation & regression 相关系数与回归

在线性回归分析中还经常可以看到r2——相关系数的平方,又叫相关判定系数。


r2 就是变量y值的变动能用回归直线来解释的比例(the fraction of the variation in the values of y that is explained by the least-squares regression of y on x)。其中的意义在于,假如存在直线回归关系,则y值的变动之中有一部分是由于x的变化引起的——x沿着回归直线拉动y值。涉及三个概念:


a. y的变动(Total sum of squares)——y的观测值yi围绕y均值的变动(Measures variation of observed yi around the mean),即SST

b. 可解释的变动(Explained variation)——由于xy存在线性关系引起的变动(Variation due torelationship between x & ySSR

c. 不可解释的变动(Unexplained variation)——由于其它因素引起的变动(Variationdue to other factor),即SSE

三者的关系:SST = SSR + SSE,总变动 = 可解释变动 + 不可解释变动,如图


相关系数评价标准的相关知识_第1张图片

r2= 可预测的因x的变动引起的y在回归直线上变动 / y观测值的总变动

= 可解释变动 / 总变动

=SSR/SST


运用该方法计算出来的r2,与先计算相关系数r之后,再平方得到的是同一个数(计算相关系数r的另一个方法——先求r2,然后再开根号,但缺点是不能判断正负号(不知道相关的方向。)。由r2的计算公式可知,0≤r2≤1。r2的含义


► 当r = ±1时,r2= 1,所有的点都在同一条直线上。直线关系解释所有y的变动(SST=SSR、y的变动全部由于x的变动引起),回归直线能完美预测y值。

► 当r≠±1且r≠0时,0<r2<1时(SST>SSR),线性关系能部分解释y的变动(所解释的部分就是r2所代表的值)。如前面施肥与产量的例子r = .956,r2=.914,亦即产量y的变动中大约有有91%能由与施肥量x线性关系来解释。

► 当r = 0,r2= 0,y的全部无法由于线性关系解释。


在回归预测中,通常用r2来衡量如果以回归模型来解释因变量有多成功(how successful the regressionwas in explaining the response)。如果提供的是相关系数,将其平方后你就能更好的理解线性关系的强弱。比如:如果r = ±.7,则两个变量线性相关关系介于线性无关(r = 0)和完全线性相关( r = ±1)的“半路上”,因为(.7)^2= 0.49。课本上的练习和例子一般提供的r(甚至r2)都大于.9(高度相关),现实中只要回归模型的r2在.4、.5甚至.3(即相当于r在.5以上)就可以认为其拟合度相当高,可以利用其进行线性关系预测。


——资料来源:David S. Moore, 《统计学的世界》,中信出版社,2003年11月


问题到这里,你就知道为何

“相关系数 0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关 ”

了吧?把相关系数平方一下。

你可能感兴趣的:(统计基础知识)