转载:http://blog.csdn.NET/han_xiaoyang/article/details/52665396
如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。
构造一个使用XGBoost的模型十分简单。但是,提高这个模型的表现就有些困难(至少我觉得十分纠结)。这个算法使用了好几个参数。所以为了提高模型的表现,参数的调整十分必要。在解决实际问题的时候,有些问题是很难回答的——你需要调整哪些参数?这些参数要调到什么值,才能达到理想的输出?
这篇文章最适合刚刚接触XGBoost的人阅读。在这篇文章中,我们会学到参数调优的技巧,以及XGboost相关的一些有用的知识。以及,我们会用Python在一个数据集上实践一下这个算法。
XGBoost(eXtreme Gradient Boosting)是Gradient Boosting算法的一个优化的版本。因为我在前一篇文章,基于Python的Gradient Boosting算法参数调整完全指南,里面已经涵盖了Gradient Boosting算法的很多细节了。我强烈建议大家在读本篇文章之前,把那篇文章好好读一遍。它会帮助你对Boosting算法有一个宏观的理解,同时也会对GBM的参数调整有更好的体会。
特别鸣谢:我个人十分感谢Mr Sudalai Rajkumar (aka SRK)大神的支持,目前他在AV Rank中位列第二。如果没有他的帮助,就没有这篇文章。在他的帮助下,我们才能给无数的数据科学家指点迷津。给他一个大大的赞!
1、XGBoost的优势
2、理解XGBoost的参数
3、调参示例
XGBoost算法可以给预测模型带来能力的提升。当我对它的表现有更多了解的时候,当我对它的高准确率背后的原理有更多了解的时候,我发现它具有很多优势:
相信你已经对XGBoost强大的功能有了点概念。注意这是我自己总结出来的几点,你如果有更多的想法,尽管在下面评论指出,我会更新这个列表的!
你的胃口被我吊起来了吗?棒棒哒!如果你想更深入了解相关信息,可以参考下面这些文章:
XGBoost Guide - Introduce to Boosted Trees
Words from the Auther of XGBoost [Viedo]
XGBoost的作者把所有的参数分成了三类:
在这里我会类比GBM来讲解,所以作为一种基础知识,强烈推荐先阅读这篇文章。
这些参数用来控制XGBoost的宏观功能。
还有两个参数,XGBoost会自动设置,目前你不用管它。接下来咱们一起看booster参数。
尽管有两种booster可供选择,我这里只介绍tree booster,因为它的表现远远胜过linear booster,所以linear booster很少用到。
这个参数用来控制理想的优化目标和每一步结果的度量方法。
如果你之前用的是Scikit-learn,你可能不太熟悉这些参数。但是有个好消息,Python的XGBoost模块有一个sklearn包,XGBClassifier。这个包中的参数是按sklearn风格命名的。会改变的函数名是:
1、eta -> learning_rate
2、lambda -> reg_lambda
3、alpha -> reg_alpha
你肯定在疑惑为啥咱们没有介绍和GBM中的n_estimators
类似的参数。XGBClassifier中确实有一个类似的参数,但是,是在标准XGBoost实现中调用拟合函数时,把它作为num_boosting_rounds
参数传入。
XGBoost Guide 的一些部分是我强烈推荐大家阅读的,通过它可以对代码和参数有一个更好的了解:
XGBoost Parameters (official guide)
XGBoost Demo Codes (xgboost GitHub repository)
Python API Reference (official guide)
我们从Data Hackathon 3.x AV版的hackathon中获得数据集,和GBM 介绍文章中是一样的。更多的细节可以参考competition page
数据集可以从这里下载。我已经对这些数据进行了一些处理:
City
变量,因为类别太多,所以删掉了一些类别。DOB
变量换算成年龄,并删除了一些数据。EMI_Loan_Submitted_Missing
变量。如果EMI_Loan_Submitted
变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的EMI_Loan_Submitted
变量。EmployerName
变量,因为类别太多,所以删掉了一些类别。Existing_EMI
变量只有111个值缺失,所以缺失值补充为中位数0。Interest_Rate_Missing
变量。如果Interest_Rate
变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的Interest_Rate
变量。Lead_Creation_Date
,从直觉上这个特征就对最终结果没什么帮助。Loan_Amount_Applied, Loan_Tenure_Applied
两个变量的缺项用中位数补足。Loan_Amount_Submitted_Missing
变量。如果Loan_Amount_Submitted
变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的Loan_Amount_Submitted
变量。Loan_Tenure_Submitted_Missing
变量。如果 Loan_Tenure_Submitted
变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的Loan_Tenure_Submitted
变量。LoggedIn
, Salary_Account
两个变量Processing_Fee_Missing
变量。如果 Processing_Fee
变量的数据缺失,则这个参数的值为1。否则为0。删除了原先的 Processing_Fee
变量。Source
前两位不变,其它分成不同的类别。 如果你有原始数据,可以从资源库里面下载data_preparation
的Ipython notebook
文件,然后自己过一遍这些步骤。
- import pandas as pd
- import numpy as np
- import xgboost as xgb
- from xgboost.sklearn import XGBClassifier
- from sklearn.model_selection import GridSearchCV,cross_val_score
- from sklearn import metrics
- import matplotlib.pylab as plt
读取文件
Model Report Accuracy : 0.9854 AUC Score (Train): 0.851058
我们看下其中具体的cv结果
cvresult.shape[0]是其中我们用的树的个数
cvresult的结果是一个DataFrame
我们会使用和GBM中相似的方法。需要进行如下步骤:
选择较高的学习速率(learning rate)。一般情况下,学习速率的值为0.1。但是,对于不同的问题,理想的学习速率有时候会在0.05到0.3之间波动。选择对应于此学习速率的理想决策树数量。XGBoost有一个很有用的函数“cv”,这个函数可以在每一次迭代中使用交叉验证,并返回理想的决策树数量。
对于给定的学习速率和决策树数量,进行决策树特定参数调优(max_depth, min_child_weight, gamma, subsample, colsample_bytree)。在确定一棵树的过程中,我们可以选择不同的参数,待会儿我会举例说明。
xgboost的正则化参数的调优。(lambda, alpha)。这些参数可以降低模型的复杂度,从而提高模型的表现。
降低学习速率,确定理想参数。
为了确定boosting
参数,我们要先给其它参数一个初始值。咱们先按如下方法取值:
1、max_depth
= 5 :这个参数的取值最好在3-10之间。我选的起始值为5,但是你也可以选择其它的值。起始值在4-6之间都是不错的选择。
2、min_child_weight
= 1:在这里选了一个比较小的值,因为这是一个极不平衡的分类问题。因此,某些叶子节点下的值会比较小。
3、gamma
= 0: 起始值也可以选其它比较小的值,在0.1到0.2之间就可以。这个参数后继也是要调整的。
4、subsample, colsample_bytree
= 0.8: 这个是最常见的初始值了。典型值的范围在0.5-0.9之间。
5、scale_pos_weight
= 1: 这个值是因为类别十分不平衡。
这里把学习速率就设成默认的0.1。然后用xgboost中的cv函数来确定最佳的决策树数量。前文中的函数可以完成这个工作。
是根据交叉验证中迭代中每一次迭代中使用交叉验证,并返回理想的决策树数量。这个值取决于系统的性能。n_estimators: 112 Model Report Accuracy : 0.9854 AUC Score (Train): 0.891681
我们看见min_child_weight已经在边界处了所以我们还可以继续调整,也可以在下个参数一起调节
我们得到max_depth的理想取值为4,min_child_weight的理想取值为6。同时,我们还能看到cv的得分有了小小一点提高。需要注意的一点是,随着模型表现的提升,进一步提升的难度是指数级上升的,尤其是你的表现已经接近完美的时候。
我们能够进一步看是否6比较好,
- param_test2b = {
- 'min_child_weight': [6, 8, 10, 12]
- }
- gsearch2b = GridSearchCV(estimator=XGBClassifier(learning_rate=0.1, n_estimators=140, max_depth=4,
- min_child_weight=2, gamma=0, subsample=0.8, colsample_bytree=0.8,
- objective='binary:logistic', nthread=4, scale_pos_weight=1,
- seed=27), param_grid=param_test2b, scoring='roc_auc', n_jobs=4,
- iid=False, cv=5)
- gsearch2b.fit(train_x, train_y)
- gsearch2b.grid_scores_, gsearch2b.best_params_, gsearch2b.best_score_
- modelMetrics(gsearch2b, train_x, train_y)
6确实是最佳的值了,不用再调节了。
然后我们拟合一下看下模型评分:
n_estimators: 140 Model Report Accuracy : 0.9854 AUC Score (Train): 0.875086
第三步:gamma参数调优
在已经调整好其它参数的基础上,我们可以进行gamma参数的调优了。Gamma参数取值范围可以很大,我这里把取值范围设置为5了。你其实也可以取更精确的gamma值。
- param_test3 = {
- 'gamma': [i / 10.0 for i in range(0, 5)]
- }
- gsearch3 = GridSearchCV(
- estimator=XGBClassifier(learning_rate=0.1, n_estimators=140, max_depth=4, min_child_weight=6, gamma=0,
- subsample=0.8, colsample_bytree=0.8, objective='binary:logistic', nthread=4,
- scale_pos_weight=1, seed=27), param_grid=param_test3, scoring='roc_auc', n_jobs=4,
- iid=False, cv=5)
- gsearch3.fit(train_x,train_y)
- gsearch3.grid_scores_, gsearch3.best_params_, gsearch3.best_score_
从这里,可以看出,得分提高了。所以,最终得到的参数是:
第四步:调整subsample 和 colsample_bytree 参数
这两个参数相当于每个树的样本和参数个数
- param_test4 = {
- 'subsample': [i / 10.0 for i in range(6, 10)],
- 'colsample_bytree': [i / 10.0 for i in range(6, 10)]
- }
- gsearch4 = GridSearchCV(
- estimator=XGBClassifier(learning_rate=0.1, n_estimators=177, max_depth=3, min_child_weight=4, gamma=0.1,
- subsample=0.8, colsample_bytree=0.8, objective='binary:logistic', nthread=4,
- scale_pos_weight=1, seed=27), param_grid=param_test4, scoring='roc_auc', n_jobs=4,
- iid=False, cv=5)
- gsearch4.fit(train_x, train_y)
- gsearch4.grid_scores_, gsearch4.best_params_, gsearch4.best_score_
([mean: 0.83836, std: 0.00840, params: {'subsample': 0.6, 'colsample_bytree': 0.6}, mean: 0.83720, std: 0.00976, params: {'subsample': 0.7, 'colsample_bytree': 0.6}, mean: 0.83787, std: 0.00758, params: {'subsample': 0.8, 'colsample_bytree': 0.6}, mean: 0.83776, std: 0.00762, params: {'subsample': 0.9, 'colsample_bytree': 0.6}, mean: 0.83923, std: 0.01005, params: {'subsample': 0.6, 'colsample_bytree': 0.7}, mean: 0.83800, std: 0.00853, params: {'subsample': 0.7, 'colsample_bytree': 0.7}, mean: 0.83819, std: 0.00779, params: {'subsample': 0.8, 'colsample_bytree': 0.7}, mean: 0.83925, std: 0.00906, params: {'subsample': 0.9, 'colsample_bytree': 0.7}, mean: 0.83977, std: 0.00831, params: {'subsample': 0.6, 'colsample_bytree': 0.8}, mean: 0.83867, std: 0.00870, params: {'subsample': 0.7, 'colsample_bytree': 0.8}, mean: 0.83879, std: 0.00797, params: {'subsample': 0.8, 'colsample_bytree': 0.8}, mean: 0.84144, std: 0.00854, params: {'subsample': 0.9, 'colsample_bytree': 0.8}, mean: 0.83878, std: 0.00760, params: {'subsample': 0.6, 'colsample_bytree': 0.9}, mean: 0.83922, std: 0.00823, params: {'subsample': 0.7, 'colsample_bytree': 0.9}, mean: 0.83912, std: 0.00765, params: {'subsample': 0.8, 'colsample_bytree': 0.9}, mean: 0.83926, std: 0.00843, params: {'subsample': 0.9, 'colsample_bytree': 0.9}], {'colsample_bytree': 0.8, 'subsample': 0.9}, 0.84143722014693034)
若我们再将精度增加的话,我们将步长调节到0.05
我们得到的理想取值还是原来的值。因此,最终的理想取值是:
下一步是应用正则化来降低过拟合。由于gamma函数提供了一种更加有效地降低过拟合的方法,大部分人很少会用到这个参数。但是我们在这里也可以尝试用一下这个参数。
([mean: 0.83949, std: 0.00720, params: {'reg_alpha': 1e-05}, mean: 0.83940, std: 0.00607, params: {'reg_alpha': 0.01}, mean: 0.84005, std: 0.00638, params: {'reg_alpha': 0.1}, mean: 0.84062, std: 0.00775, params: {'reg_alpha': 1}, mean: 0.81217, std: 0.01559, params: {'reg_alpha': 100}], {'reg_alpha': 1}, 0.84062434371797357)相比之前的结果,CV的得分甚至还降低了。但是我们之前使用的取值是十分粗糙的,我们在这里选取一个比较靠近理想值(0.01)的取值,来看看是否有更好的表现。
- param_test7 = {
- 'reg_alpha': [0, 0.001, 0.005, 0.01, 0.05]
- }
- gsearch7 = GridSearchCV(
- estimator=XGBClassifier(learning_rate=0.1, n_estimators=177, max_depth=4, min_child_weight=6, gamma=0.1,
- subsample=0.8, colsample_bytree=0.8, objective='binary:logistic', nthread=4,
- scale_pos_weight=1, seed=27), param_grid=param_test7, scoring='roc_auc', n_jobs=4,
- iid=False, cv=5)
-
- gsearch7.fit(train_x, train_y)
- gsearch7.grid_scores_, gsearch7.best_params_, gsearch7.best_score_
调整精度以后
CV的得分提高了。现在,我们在模型中来使用正则化参数,来看看这个参数的影响。
-
现在我们可以来看下reg_lambda参数调节:
([mean: 0.83996, std: 0.00597, params: {'reg_lambda': 1e-05},
mean: 0.84030, std: 0.00580, params: {'reg_lambda': 0.01},
mean: 0.83965, std: 0.00574, params: {'reg_lambda': 0.1},
mean: 0.84035, std: 0.00622, params: {'reg_lambda': 1},
mean: 0.83601, std: 0.00944, params: {'reg_lambda': 100}],
{'reg_lambda': 1},
0.84035395025572046)
- param_test8 = {
- 'reg_lambda': [1e-5, 1e-2, 0.1, 1, 100]
- }
- gsearch8 = GridSearchCV(
- estimator=XGBClassifier(learning_rate =0.1, n_estimators=177,max_depth=4,min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, reg_alpha=0.005,
- objective= 'binary:logistic',nthread=4, scale_pos_weight=1,seed=27), param_grid=param_test8, scoring='roc_auc', n_jobs=4,
- iid=False, cv=5)
-
- gsearch8.fit(train_X, train_y)
- gsearch8.grid_scores_, gsearch8.best_params_, gsearch8.best_score_
第6步:降低学习速率
最后,我们使用较低的学习速率,以及使用更多的决策树。我们可以用XGBoost中的CV函数来进行这一步工作。
xgb4 = XGBClassifier( learning_rate =0.01, n_estimators=5000, max_depth=4, min_child_weight=6, gamma=0, subsample=0.8, colsample_bytree=0.8, reg_alpha=0.005, objective= 'binary:logistic', nthread=4, scale_pos_weight=1, seed=27)
我们看下最后的模型评分
至此,你可以看到模型的表现有了大幅提升,调整每个参数带来的影响也更加清楚了。
在文章的末尾,我想分享两个重要的思想:
1、仅仅靠参数的调整和模型的小幅优化,想要让模型的表现有个大幅度提升是不可能的。GBM的最高得分是0.8487,XGBoost的最高得分是0.8494。确实是有一定的提升,但是没有达到质的飞跃。
2、要想让模型的表现有一个质的飞跃,需要依靠其他的手段,诸如,特征工程(feature egineering) ,模型组合(ensemble of model),以及堆叠(stacking)等。