数据分析集训营-第六次任务(模型融合)

模型融合==集成学习

模型融合又叫做集成学习,集成学习通过组合多个个体学习器来获取比单个个体学习器显著优越的泛化性能,通常选取个体学习器的准则是:

  • 个体学习器要有一定的准确性,预测能力不能太差
  • 个体学习器之间要有多样性,即学习器之间要有差异。

集成学习方式

根据个体学习的生成方式,目前的基础学习方法大概分为以下两类:

  1. Boosting算法:个体学习器之间存在强依赖关系,必须串行生成
  2. Bagging算法:不存在强依赖关系,可同时生成
# 构建 Stacking 模型,使用 svm 作为最后的融合模型
s_clf = StackingClassifier(classifiers=[lr_model, svm_model, dt_model],
                           meta_classifier=svm_model, use_probas=True, verbose=3)
s_clf.fit(X_train, y_train)

model_evaluate(lr_model, X_train, X_test, y_train, y_test)
# 运行结果
accuracy:
训练集: 0.7974
测试集: 0.8080
precision:
训练集: 0.7196
测试集: 0.7484
recall:
训练集: 0.3238
测试集: 0.3371
F1-score:
训练集: 0.4466
测试集: 0.4648
AUC:
训练集: 0.8015
测试集: 0.8010

你可能感兴趣的:(数据挖掘实践)