机器学习笔记之-数据共线性的问题

       在将数据放入到模型中进行训练时,经常需要检验各维度之间的可能存在的多重共线性的问题,本文将着重讲解将如何识别和解决多重共线性的问题~

多重共线性:

        其是指模型中的自变量之间存在较强的线性关系,多重共线性的存在不仅会导致模型的过拟合,而且还会导致回归模型的

稳定性和准确性大大的降低。因此对于多重共线性的识别和解决就变得尤其重要。

容易出现多重共线性的场景:

1、数据样本量的不足会导致多重共线性。

2、多个变量之间都基于有同趋势的数据。

3、多个变量之间存在着近似线性的关系。

多重共线性的识别:

一般含有如下指标:容忍度、方差膨胀因子、特征值等几个特征来进行判别。

容忍度:是指每个自变量作为因变量对其他自变量进行回归建模时得到的残差比例,大小用1-决定系数表示。值域为[0,1]之间,值越小,说明这个自变量与其他自变量间越可能存在多重共线性。

方差膨胀因子VIF:VIF是容忍度的倒数,值越大则共线性问题越明显,通常以10作为判断边界。当VIF<10,不存在多重共线性;当10<=VIF<100时,存在较强的多重共线性;当VIF>100时,则可能存在比较严重的多重共线性。

特征值法:该方法实际上就是对自变量进行主成分分析,如果多个维度的特征值等于0,则可能存在比较严重的共线性。

常用的五种解决多重共线性的方法:

1、增大样本量

此法可以消除由于数据量不足而出现的偶然共线性的情况;但是存在着即使增加了样本量可能还无法解决共线性的问题,因为变量间确实存在着多重共线性的问题。

2、岭回归法

其是一种专用于共线性问题的有偏估计回归方法,实质上是一种改良的最小二乘估计。她是通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价来获得更实际和可靠性更强的回归系数。因此岭回归在存在较强共线性的回归应用中较为常见。

3、逐步回归法

其是通过每次引入一个自变量并进行统计检验,然后逐步引入其他变量,同时对所有变量的回归系数检验。如果原来的变量由于后面的变量引入而变得不显著,则将其剔除,逐步得到回归方程。

4、主成分回归

将原始参与建模的变量转换为少数几个主成分,每个主成分是原始变量的线性组合,然后基于主成分做回归分析,这样可以在不丢失重要数据特征的前提下避开共线性。

 

你可能感兴趣的:(机器学习,数据预处理)