Kaggle提升模型性能的超强杀招Stacking——机器学习模型融合

之前的文章中谈到了机器学习项目中,要想使得使得机器学习模型进一步提升,我们必须使用到模型融合的技巧,今天我们就来谈谈模型融合中比较常见的一种方法——stacking。翻译成中文叫做模型堆叠,接下来我们就来了解下,此法到底如何将模型做堆叠从而提升模型效果的。

stacking具体流程

我们就对着下图(两层的stacking)来详细描述一下如何做模型stacking:

  • 首先将数据分为5份,
  • 在stacking的第一层定义5个基模型[model_1 ,model_2,model_3,model_4,model_5],其中每个模型选择做一下5折的交叉验证的预测,这样就相当于每个模型将所有数据预测了一遍,举个例子,最终每一个训练数据会被转换为[1,1,1,1,0]形状,维度为5的向量。
  • 将第一层5个基模型的输出预测向量[1,1,1,1,0],作为第二层模型model_6的特征做训练,
  • 做test时,直接将test的数据喂给之前第一层训练好的5个基模型,5个模型预测出的至平均后作为第二层模型的输入。

大家可以简单的将stacking的第一层模型理解成一个超强的特征转换层

stacking

Stacking注意事项

做Stacking模型融合时需要注意以下个点,我们拿2层stacking模型融合来举例子:

  • 第一层的基模型最好是强模型,而第二层的基模型可以放一个简单的分类器,防止过拟合。
  • 第一层基模型的个数不能太小,因为一层模型个数等于第二层分类器的特征维度。大家可以把勉强将其想象成神经网络的第一层神经元的个数,当然这个值也不是越多越好。
  • 第一层的基模型必须准而不同",如果有一个性能很差的模型出现在第一层,将会严重影响整个模型融合的效果(笔者在实验过程中就遇到这样的坑)。

通过上述的描述,大家没有发现其实2层的stacking 其实和两层的神经网络有些相像,只不过stacking将神经网络第一层的神经元换成了强大的机器学习模型

实验部分

数据准备

from sklearn.datasets import make_classification
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingClassifier as GBDT
from sklearn.ensemble import ExtraTreesClassifier as ET
from sklearn.ensemble import RandomForestClassifier as RF
from sklearn.ensemble import AdaBoostClassifier as ADA
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
import numpy as np
x,y = make_classification(n_samples=6000)
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.5)

定义第一层模型

由于Stacking的第一层最后选择比较强的模型,所以这里笔者选了四个本身就是集成模型的强模型,GBDT,RandomForest,ExtraTrees,和 Adaboost。

### 第一层模型
clfs = [ GBDT(n_estimators=100),
       RF(n_estimators=100),
       ET(n_estimators=100),
       ADA(n_estimators=100)
]
X_train_stack  = np.zeros((X_train.shape[0], len(clfs)))
X_test_stack = np.zeros((X_test.shape[0], len(clfs))) 

数据输入第一层模型,输出即将喂给第二层模型特征

6折交叉验证,同时通过第一层的强模型训练预测生成喂给第二层的特征数据。

### 6折stacking
n_folds = 6
skf = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=1)
for i,clf in enumerate(clfs):
#     print("分类器:{}".format(clf))
    X_stack_test_n = np.zeros((X_test.shape[0], n_folds))
    for j,(train_index,test_index) in enumerate(skf.split(X_train,y_train)):
                tr_x = X_train[train_index]
                tr_y = y_train[train_index]
                clf.fit(tr_x, tr_y)
                #生成stacking训练数据集
                X_train_stack [test_index, i] = clf.predict_proba(X_train[test_index])[:,1]
                X_stack_test_n[:,j] = clf.predict_proba(X_test)[:,1]
    #生成stacking测试数据集
    X_test_stack[:,i] = X_stack_test_n.mean(axis=1) 

用第一层模型的输出特征,训练第二层模型

为了防止过拟合,第二层选择了一个简单的Logistics回归模型。输出Stacking模型的auc得分。

###第二层模型LR
clf_second = LogisticRegression(solver="lbfgs")
clf_second.fit(X_train_stack,y_train)
pred = clf_second.predict_proba(X_test_stack)[:,1]
roc_auc_score(y_test,pred)#0.9946

同时笔者对比了第一层四个基模型的得分情况。

GBDT分类器性能

###GBDT分类器
clf_1 = clfs[0]
clf_1.fit(X_train,y_train)
pred_1 = clf_1.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_1)#0.9922

随机森林分类器性能

###随机森林分类器
clf_2 = clfs[1]
clf_2.fit(X_train,y_train)
pred_2 = clf_2.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_2)#0.9944

ExtraTrees分类器性能

###ExtraTrees分类器
clf_3 = clfs[2]
clf_3.fit(X_train,y_train)
pred_3 = clf_3.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_3)#0.9930

AdaBoost分类器性能

###AdaBoost分类器
clf_4 = clfs[3]
clf_4.fit(X_train,y_train)
pred_4 = clf_4.predict_proba(X_test)[:,1]
roc_auc_score(y_test,pred_4)#0.9875

最终结果如下图所示:其中Stacking集成模型得分最高为0.9946,而且笔者做了多次实验,性能也比较稳定。


实验结果

结语

确实Stacking集成模型后,模型的性能有了提升,同时笔者说说实验过程中遇的坑,之前的笔者在Stacking第一层放了一个Logistic回归模型,其本身的性能就不好,最终导致Stacking的效果反而变差,所以一定要记住,Stacking前面层的模型性能一定要强,还是类比神经网络,特征提取网络(NLP领域的:Tansformer,图像领域的:Resnet)一定要强,这样才能产生好的效果。做完整个实验,笔者感悟到:Stacking貌似做的还是特征转换,或者叫表示学习。

你可能感兴趣的:(Kaggle提升模型性能的超强杀招Stacking——机器学习模型融合)