为什么决策树模型不考虑变量之间的共线性?

在做线性回归时,假设之一是要求自变量之间没有强共线性,但是用决策树模型做预测时,却没有这个要求。于是乎,查询了一下,在Quora上找到了相关答案。Is multicollinearity a problem with gradient boosted trees?

总结一下,主要有下面几个原因

1.在统计分析中,作推断(inference)时,如果自变量存在共线性,将无法区分它们对因变量的影响,因此无法对结果进行清除的解释。

2.但是作预测(prediction)时,我们并不关系如何解释自变量对因变量的影响。GBT 也更像一个black-box,很适合做预测分析。

3.做预测分析时,即时我们用OLS方法,如果特征存在强相关性,会导致特征矩阵不可逆,但此时,我们仍然可以利用psedoinverse matrix进行计算。

4. 做预测时,往往用贪婪算法进行变量选择,只有新变量对结果影响比较大时,才会被加入到模型中,因此,在step-wise variable selection的过程中,共线性的变量只有一个会被选入到模型中。在决策树模型中,每一个树的构建都是贪婪的,因此,冗余的特征并不会被加入模型中。


(如果理解有问题,欢迎批评指正)

你可能感兴趣的:(理论)