(statistic)回归分析与相关分析与R^2

//2014年4月1日

//2014年6月20日入“未完成”

//2014年6月21日

//2014年10月28日

参考:

http://www.zhihu.com/question/21131239

http://www.doc88.com/p-116698726744.html

http://stats.stackexchange.com/questions/2125/whats-the-difference-between-correlation-and-simple-linear-regression


推荐一篇神奇的论文

Thirteen Ways to Look at the Correlation Coefficient

http://links.jstor.org/sici?sici=0003-1305%28198802%2942%3A1%3C59%3ATWTLAT%3E2.0.CO%3B2-9


一.针对皮尔逊系数意义上的

模型Ⅰ:x为自变量,y为随机变量

模型Ⅱ:x,y都是随机变量

如果自变量是随机变量,即模型Ⅱ回归分析,所采用的回归方法与计算者的目的有关。

在以预测为目的的情况下仍采用“最小二乘法”,但精度下降。因为最小二乘法是专为模型Ⅰ设计的,未考虑自变量的随机误差。

在以估值为目的,如计算可决系数、回归系数等的情况下,应使用相对严谨的方法,如“主轴法”、“约化主轴法”或“Bartlett法”。

显然对于回归分析,如果是模型Ⅱ回归分析鉴于两个随机变量客观上存在“相关性”问题,只是由于回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段。因此,若以预测为目的最好不提“相关性”问题,若以探索两者的“共变趋势”为目的,应该改用相关分析。

如果是模型Ⅰ的回归分析,就根本不可能回答变量的“相关性”问题。因为普通变量与随机变量之间不存在“相关性”这一概念。问题在于大多数的回归分析都是模型Ⅰ回归分析。此时即使作者想描述2个变量间的“共变趋势”而改用相关分析也会因相关分析的前提不存在而使分析结果毫无意义。       


二.R^2

为什么一元线性回归的判定系数等于相关系数的平方,但从各自的公式上看不存在这个关系?

其实是关系是这样的相关系数的值=判定系数的平方根符号与x的参数相同。只是你没发现而已。他们用不同的表达式表达出来了。所以不能一眼看出来推导有些复杂。  但是他们在概念上有明显区别,相关系数建立在相关分析基础之上研究两个变量之间的线性相关关系。而判定系数建立在回归分析基础之上研究一个随机变量对别一个随机变量的解释程度。   

回归分析中的R2在数学上恰好是Pearson积矩相关系数r的平方。因此这极易使作者们错误地理解R2的含义认为R2就是“相关系数”或“相关系数的平方”。问题在于对于自变量是普通变量即其取值有确定性的变量、因变量为随机变量的模型Ⅰ回归分析,2个变量之间的“相关性”概念根本不存在,又何谈“相关系数”呢,更值得注意的是一些早期的教科书作者不是用R2来描述回归效果拟合程度拟合度的而是用Pearson积矩相关系数r来描述。这就更容易误导读者。

三.广义上的

X和Y和Y与X预测线性回归关系之间的区别是什么

首先,一些相似之处

标准化回归系数皮尔森相关系数相同

皮尔森相关系数的平方简单的线性回归R2相同

都不能回答因果关系

第二一些差异

回归方程可以用来做预测基于x的Y的值

相关性通常指的是线性关系可以参考其他形式的依赖如多项式真正的非线性关系

相关性通常指的是皮尔森的相关系数还有其他类型的关系Spearman的。


你可能感兴趣的:(在大学-机器学习方面)