随机森林的基分类器可否由决策树替换为线性分类器或者K-NN?

分析

随机森林(Random Forest)

随机森林(RF)是Bagging算法族中的一种,RF是以决策树为基分类器构建Bagging集成的基础上,进一步在决策树的训练过程中引入随机属性选择。

具体来说:传统决策树在选择划分属性时是在当前结点的属性集合(假设有d个属性)中选择一个最优属性;而在RF中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性用于划分。

即RF中的基学习器的多样性不进来自样本扰动,还来自属性扰动

方差-偏差

从方差-偏差角度来说,Bagging算法主要是降低方差,即RF测试结果的方差比每一个基学习器的方差要小!!

解答

Bagging所采用的基分类器,最好是对样本分布比较敏感(即就是 不稳定的分类器)。

线性分类器或者K-NN都是比较稳定的算法,对异常点不敏感,并且本身方差就不大,所以用它们做基分类器使用Bagging并不能在原有基础上获得好的结果,甚至,因为Bagging的采样,而导致它们在训练中难以收敛,从而增大了集成分类的偏差!!!

你可能感兴趣的:(机器学习相关面试问题,随机森林,基分类器,机器学习)