多重共线性

最近碰到个有有意思的问题:在传统统计机器学习(lr)中,相关性检测(VIF等)防止多重共线性非常重要;但是在实际的机器学习应用中,多重共线性似乎不用考虑。

参考这个回答: https://stats.stackexchange.com/questions/168622/why-is-multicollinearity-not-checked-in-modern-statistics-machine-learning/168631

给出的解释大概是:

  1. 多重共线性影响的是系数:
    严重的多重共线性,数据轻微的变化会带来模型系数的大波动,但是对于模型的效果(至少是训练集上)没有影响。从而,由于系数的变化,模型的可解释性变差;
  2. 对于SVM 等模型:
    KKT条件保证了唯一解,因而无影响;此外,Kernel trick保证了即使在特征数量大于样本数时,也能有较好的结果。
  3. 对于随机森林:每棵树的切分前都会随机采样,取不同的特征,但是切分的标准是,是得树之间原本的相关性就很高(这点有点不理解),因此也无影响

你可能感兴趣的:(多重共线性)