关于随机森林改进的理解

随机森林作为一种集成学习方法,它是由一系列基学习器构成的,构成及学习器的方法就是通过随机化采样的方法,来构成不同泛化边界的基学习器,然后在通过简单的投票法来结合出最后的集成模型。

这种简单的模型,在UCI糖尿病数据集的实践中,性能的提高有限,于是,希望在已有模型的基础上做改进来改善模型,以下是改善模型的几点想法

  1. 首先通过随机化方法来引入误差,构成的基学习器,在训练集上的性能参差不齐,我们通过AUC的指标值来选取性能较优的基学习器。但是如果这些基学习器是一些相同的相近的学习器,就不能通过集成来提高性能,实际上由于引入了随机化误差,就算AUC的值相近,基学习器依然有很大的相异性,在实践中,对模型性能有提高。
  2. 其次,增加基学习器之间的多样性,我们希望找到一定的量化指标,来表明这些多样性。现有的两个多样性的方向,有行为多样性即在训练集上两个基学习器上的表现,这个表现在一定程度上表征出基学习器的泛化边界,但是训练集依旧是小样本,无法完全表征泛化边界。还有就是结构多样性,同样这个指标也是用来表征泛化边界的。
  3. 对于,通过泛化性能表现,来选择基学习器,来改善模型,还没有在自己的实践中通过验证。

参考论文:

  1. How to compare and interpret two learnt Decision Trees from the same Domain? 
    Petra Perner 
    Institute of Computer Vision and Applied Computer Sciences, IBaI 
    Postbox 30 11 14, 04251 Leipzig 
  2. Structural Diversity for Decision Tree Ensemble Learning
    Tao SUN, Zhi-Hua ZHOU
    National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210023, China
  3. 王日升,谢红薇,安建成.基于分类精度和相关性的随机森林算法改进[J].科学技术与工程,2017,17(20):67-72.

你可能感兴趣的:(关于随机森林改进的理解)