特征共线性问题分析

1.概念:

多重共线性是指自变量之间存在一定程度的线性相关,会给变量对模型的贡献性带来影响。即若有两个变量存在共线性,在相互作用计算后,其一的变量的影响会相对减弱,而另一个变量的作用却会相对增强。

2.产生原因:

(1)没有足够多的样本数据
(2)选取的样本之间本身就客观存在共线性关系
(3)其他因素导致:数据采集所采用的方法,模型的设定,一个过度决定的模型
多数研究者认为特征共线性本质上由于样本数据不足引起

3.判别多重共线性:

(1)系数估计值符号不对
(2)删除某一不太重要的特征,结果发生显著变化
(3)方差膨胀因子(vif)检验

4.影响:

(1)难以区分每个解释变量对结果的影响
(2)回归模型缺乏稳定性
稳定性指从同一个总体中抽取不同的样本估计模型,得到的估计值不会完全相同,但也不会有很大的差别
当模型存在多重共线性时,样本数据有了微小的数据变换,都可能导致系数估计值发生显著变化,甚至出现符号错误

5.处理原则:

(1)多重共线性普遍存在,程度不一,轻微的多重共线性问题可不采取措施
(2)严重的多重共线性问题,一般可根据经验或通过分析回归结果发现。如影响系数符号,重要的解释变量t值很低
(3)若模型仅用于预测,只要拟合程度好,可不处理多重共线性

6.处理方法:

(1)增加样本数据量

(2)采用逐步回归结合主观分析的方法,从少到多的做特征选择

(3)从共线问题的自变量中剔除一些不重要的变量


你可能感兴趣的:(Python数据分析技巧)