线性回归模型中的多重共线性--Multicollinearity

1.Predictor variable

预测变量,即为自变量( independent variable)或者回归子(regressor), 即它的值不受其他变量的影响。

2.Correlation coefficients

相关系数是指两个变量之间的关系,而皮尔森系数(pearson’s correlation)就是在线性回归中常用的一种相关系数,通常就是指 Pearson’s R value。

皮尔森系数用来计算两个数据间有多强的联系,例如以下的计算公式,会返回 -1 到 1 之间的一个值,其绝对值越趋近于1,表明相关性越强。一般来讲,可用如下的几个等级进行描述:

  • 0.8-1.0 极强相关
  • 0.6-0.8 强相关
  • 0.4-0.6 中等程度相关
  • 0.2-0.4 弱相关
  • 0.0-0.2 极弱相关或无相关

其全称是Pearson Product Moment Correlation (PPMC),即皮尔曼积差相关系数,或皮尔曼积矩相关系数,常用来刻画数据间的线性关系,而这两个数据不能有依赖关系,即一个是dependent variable,另一个是 independent variable,这样是不行的。关于 Product Moment 的解释,详见附录部分。

常用来表示 Pearson correlation 的两个字母是 ρ 和 γ,它们的表达式分别为:

这里写图片描述     这里写图片描述

相关系数的计算,都是两个变量的协方差比上标准差的乘积,但是又分了两种情况,分别是总体(population)的情况和采样(sample)的情况。分别对应于上方第一(ρ)和第二(γ)个公式,我们也通常称之为整体相关系数和样本相关系数。其展开形式,分别如下:

这里写图片描述

这里写图片描述

3.Multicolliearity

而所谓的多重共线性,是指 predictor variable 之间的关系,当预测变量间有跟高的相关度时,会造成信息冗余,影响回归模型的结果。检测的方法是计算所有 predictor variable pairs 间的相关系数,如果有为 1 或者 -1 的,说明两变量间,高度相关,此时应该干掉一个。

4.Other relation coefficients

4.1 复相关系数

用来表示一个因变量和一组自变量之间的相关程度。

4.2 典型相关系数

对每组变量进行主成分分析,得到新的线性关系,然后分析新的各变量间的相关系数。

4.3 spearman correlation coefficients

4.4 kendall correlation coefficients

5.Appendix1: Product moment

6.References

[1]http://blog.sina.com.cn/s/blog_69e75efd0102wmd2.html
[2]https://www.cnblogs.com/gccbuaa/p/6795598.html
[3]https://segmentfault.com/q/1010000000094674
[4]https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
[5]http://www.statisticshowto.com/multicollinearity/
[6]

你可能感兴趣的:(ML,DL)