stacking和blending的原理和各自的优劣

机器学习中集成学习算法,stacking和blending

目录

    • 一.原理
      • 1.stacking
      • 2.blending
    • 二.stacking过程解读
    • 三.优劣
      • 1.stacking
      • 2.blending

一.原理

1.stacking

stacking是k折交叉验证,元模型的训练数据等同于基于模型的训练数据,该方法为每个样本都生成了元特征,每生成元特征的模型不一样(k是多少,每个模型的数量就是多少);测试集生成元特征时,需要用到k(k fold不是模型)个加权平均;

2.blending

blending是holdout方法,直接将训练集切割成两个部分,仅10%用于元模型的训练;

二.stacking过程解读

stacking和blending的原理和各自的优劣_第1张图片

三.优劣

1.stacking

stacking和blending的原理和各自的优劣_第2张图片

2.blending

1.比stacking简单(因为不用进行k次的交叉验证来获得stacker feature)

2.避开了一个信息泄露问题:generlizers和stacker使用了不一样的数据集

3.在团队建模过程中,不需要给队友分享自己的随机种子

而缺点在于:

1.使用了很少的数据(是划分hold-out作为测试集,并非cv)

2.blender可能会过拟合(其实大概率是第一点导致的)

3.stacking使用多次的CV会比较稳健

你可能感兴趣的:(stacking和blending的原理和各自的优劣)