【机器学习】kaggle比赛大杀器——模型融合

模型融合方法概述

  • 0 写在前面
  • 1 Voting
  • 2 Averaging
  • 3 Bagging
  • 4 Boosting
  • 5 Stacking
  • show me code, no bb
  • 写在最后
    • 谢谢点赞交流!(❁´◡`❁)

更多代码: Gitee主页:https://gitee.com/GZHzzz
博客主页: CSDN:https://blog.csdn.net/gzhzzaa

0 写在前面

  • 本文不涉及到各个算法原理层次的深度,目的在于从宏观上帮助理解这几个模型融合方法
    【机器学习】kaggle比赛大杀器——模型融合_第1张图片

1 Voting

从最简单的Voting说起,这可以说是一种最直观、简单的模型融合。假设对于一个二分类问题,有3个基础模型,那么就采取投票制的方法,投票多者确定为最终的分类

2 Averaging

对于回归问题,一个简单直接的思路是取平均。稍稍改进的方法是进行加权平均。权值可以用排序的方法确定,举个例子,比如A、B、C三种基本模型,模型效果进行排名,假设排名分别是1,2,3,那么给这三个模型赋予的权值分别是3/6、2/6、1/6

这两种方法看似简单,其实后面的高级算法也可以说是基于此而产生的,Bagging或者Boosting都是一种把许多弱分类器这样融合成强分类器的思想

3 Bagging

Bagging就是采用有放回的方式进行抽样,用抽样的样本建立子模型,对子模型进行训练,这个过程重复多次,最后进行融合。大概分为这样两步:

  • 重复K次,有放回地重复抽样建模,训练子模型

  • 模型融合,分类问题:voting,回归问题:average
    随机森林就是基于Bagging算法的一个典型例子,采用的基分类器是决策树

4 Boosting

Bagging算法可以并行处理,而Boosting的思想是一种迭代的方法,每一次训练的时候都更加关心分类错误的样例,给这些分类错误的样例增加更大的权重,下一次迭代的目标就是能够更容易辨别出上一轮分类错误的样例。最终将这些弱分类器进行加权相加
【机器学习】kaggle比赛大杀器——模型融合_第2张图片
【机器学习】kaggle比赛大杀器——模型融合_第3张图片
同样地,基于Boosting思想的有AdaBoost、GBDT等

5 Stacking

  • stacking是一种集成思想,很多集成算法都是它的变体。准确地来讲,stacking方法是用“学习”的方法来融合模型(对比一下加权融合、平均融合,这两种是用一个规则、一个公式来融合几个模型的预测结果),也就是把要融合的几个模型的预测结果,通过另外一个学习模型融合起来。这个用于融合的学习模型被称为元学习器(meta-learner),而几个单模型都是初级学习器
  • Stacking本质上就是这么直接的思路,但是这样肯定是不行的,问题在于初级学习器的得到是有问题的,用整个训练集训练的模型反过来去预测训练集的标签,毫无疑问过拟合是非常非常严重的,因此现在的问题变成了如何在解决过拟合的前提下得到初级学习器,这就变成了熟悉的节奏——K折交叉验证

satcking融合的步骤

step1:训练T个初级学习器,要使用交叉验证的方法在Train Set上面训练(因为第二阶段建立元学习器的数据是初级学习器输出的,如果初级学习器的泛化能力低下,元学习器也会过拟合)
step2:T个初级学习器在Train Set上输出的预测值,作为元学习器的训练数据D,有T个初级学习器,D中就有T个特征。D的label和训练初级学习器时的label一致
step3:T个初级学习器在Test Set上输出的预测值,作为训练元学习器时的测试集,同样也是有T个模型就有T个特征
step4:训练元学习器,元学习器训练集D的label和训练初级学习器时的label一致

  • 其实在第二层训练元学习器的时候,也可以再利用交叉验证的思想,来提高元学习器在测试集上的预测能力

【机器学习】kaggle比赛大杀器——模型融合_第4张图片

show me code, no bb

下面是stacking融合的代码,可以保存成py文件,直接调用

def stack_model(oof_1, oof_2, oof_3, predictions_1, predictions_2, predictions_3, y, eval_type='regression'):
   
    # Part 1.数据准备
    # 按行拼接列,拼接验证集所有预测结果
    # train_stack就是final model的训练数据
    train_stack = np.hstack([oof_1, oof_2, oof_3])
    # 按行拼接列,拼接测试集上所有预测结果
    # test_stack就是final model的测试数据
    test_stack = np.hstack([predictions_1, predictions_2, predictions_3])
    # 创建一个和验证集行数相同的全零数组,
    oof = np.zeros(train_stack.shape[0])
    # 创建一个和测试集行数相同的全零数组
    predictions = np.zeros(test_stack.shape[0])
    
    # Part 2.多轮交叉验证(对于stacking第二步骤的交叉验证):划分为5折,每一折训练集上面用贝叶斯回归来训练模型(模型融合过程)
    #在验证集上
    from sklearn.model_selection import RepeatedKFold
    folds = RepeatedKFold(n_splits=5, n_repeats=2, random_state=2020)
    
    # fold_为折数,trn_idx为每一折训练集index,val_idx为每一折验证集index
    for fold_, (trn_idx, val_idx) in enumerate(folds.split(train_stack, y)):
        # 打印折数信息
        print("fold n°{}".format(fold_+1))
        # 训练集中划分为训练集的样本和标签
        trn_data, trn_y = train_stack[trn_idx], y[trn_idx]
        # 训练集中划分为验证集的样本和标签
        val_data, val_y = train_stack[val_idx], y[val_idx]
        # 开始训练时提示
        print("-" * 10 + "Stacking " + str(fold_+1) + "-" * 10)
        # 采用贝叶斯回归作为结果融合的模型(final model)
        clf = BayesianRidge()
        # 在训练数据上进行训练
        clf.fit(trn_data, trn_y)
        # 在验证数据上进行预测,并将结果记录在oof对应位置(用来计算评估指标)
        oof[val_idx] = clf.predict(val_data)
        # 对测试集数据进行预测,每一轮预测结果占比额外的1/10(多轮交叉验证:n_splits=5, n_repeats=2)
        predictions += clf.predict(test_stack) / (5 * 2)
        
    if eval_type == 'regression':
        print('mean: ',np.sqrt(mean_squared_error(y, oof)))
    if eval_type == 'binary':
        print('mean: ',log_loss(y, oof))
    
    # 返回测试集的预测结果
    return oof, predictions

写在最后

十年磨剑,与君共勉!
更多代码:Gitee主页:https://gitee.com/GZHzzz
博客主页:CSDN:https://blog.csdn.net/gzhzzaa

  • Fighting!

基于pytorch的经典模型:基于pytorch的典型智能体模型
强化学习经典论文:强化学习经典论文
在这里插入图片描述

while True:
	Go life

在这里插入图片描述

谢谢点赞交流!(❁´◡`❁)

你可能感兴趣的:(model,机器学习,算法,集成学习,人工智能,决策树)