多重共线性的个人理解

多重共线性(multicolinearity)是指线性回归模型钟的自变量之间由于存在高度相关系数而使模型的权重参数估计失真或者难以估计准确性的一种特性,多重是指一个自变量可能与多个其他自变量之间存在相关关系。

多重共线性会放大随机误差或者异常值的影响,导致两次计算结果出现很大的误差,共线性越想这种放大作用越强。

多重共线性的问题:这个问题可以类比模型集成:我们希望基模型效果要好,且存在差异性,这样集成的模型才会好。而这里的多重共线性也是一样的原因,因为两个或多个变量的作用是一样的,只保留一个就好了,而如果多个变量都保留的话,对模型的效果没有提升,甚至可能因为他们的同质性而使得模型效果更坏,因为在计算损失时,多个同样作用的变量却会将损失累计。所以,我们需要判断多重共线性,去除共线性的变量。

或者我们换句话说,我们希望我们的特征变量都是存在差异性的(变量间独立性),这样在进行模型训练因为差异性而使得模型效果和损失较小。

================================================================================
个人猜想,不一定对。。。。

你可能感兴趣的:(机器学习系列)