公共自行车使用量预测活动总结

前言

本次练习主要致力于xgboost回归模型(XGBRegressor)的简单的数据处理模型调参,数据与标杆模型来自公共自行车使用量预测的一个竞赛。
(http://sofasofa.io/competition.php?id=1#c1)
结果要求RMSE的最小。

1. xgboost模型概述

1.1 XGBoost的核心算法思想

①不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差。
②当我们训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数。
③最后只需要将每棵树对应的分数加起来就是该样本的预测值。

目标是要使得树群的预测值尽量接近真实值,而且有尽量大的泛化能力。

1.2 XGBoost的优点

①使用许多策略去防止过拟合,如:正则化项、Shrinkage and Column Subsampling等。
②目标函数优化利用了损失函数关于待求函数的二阶导数。
③支持并行化,这是XGBoost的闪光点,虽然树与树之间是串行关系,但是同层级节点可并行。具体的对于某个节点,节点内选择最佳分裂点,候选分裂点计算增益用多线程并行。训练速度快。
④添加了对稀疏数据的处理。
⑤交叉验证,early stop,当预测结果已经很好的时候可以提前停止建树,加快训练速度。
⑥支持设置样本权重,该权重体现在一阶导数g和二阶导数h,通过调整权重可以去更加关注一些样本。

1.3 XGBoost的参数

通用参数:宏观函数控制。

booster:我们有两种参数选择,gbtree和gblinear。gbtree是采用树的结构来运行数据,而gblinear是基于线性模型。默认使用gbtree就可以了,不需要调参。
silent:静默模式,为1时模型运行不输出。
nthread: 使用线程数,一般我们设置成-1,使用所有线程。如果有需要,我们设置成多少就是用多少线程。

Booster参数:控制每一步的booster(tree/regression)。booster参数一般可以调控模型的效果和计算代价。我们所说的调参,很这是大程度上都是在调整booster参数。

n_estimator: 也作num_boosting_rounds
这是生成的最大树的数目,也是最大的迭代次数。

learning_rate: 有时也叫作eta,系统默认值为0.3
每一步迭代的步长,很重要。太大了运行准确率不高,太小了运行速度慢。我们一般使用比默认值小一点,0.1左右就很好。

gamma:系统默认为0,我们也常用0。
在节点分裂时,只有分裂后损失函数的值下降了,才会分裂这个节点。gamma指定了节点分裂所需的最小损失函数下降值。 这个参数的值越大,算法越保守。因为gamma值越大的时候,损失函数下降更多才可以分裂节点。所以树生成的时候更不容易分裂节点。范围: [0,∞]

subsample:系统默认为1。
这个参数控制对于每棵树,随机采样的比例。减小这个参数的值,算法会更加保守,避免过拟合。但是,如果这个值设置得过小,它可能会导致欠拟合。 典型值:0.5-1,0.5代表平均采样,防止过拟合. 范围: (0,1],注意不可取0

colsample_bytree:系统默认值为1。我们一般设置成0.8左右。
用来控制每棵随机采样的列数的占比(每一列是一个特征)。 典型值:0.5-1范围: (0,1]

colsample_bylevel:默认为1,我们也设置为1.
这个就相比于前一个更加细致了,它指的是每棵树每次节点分裂的时候列采样的比例

max_depth: 系统默认值为6
我们常用3-10之间的数字。这个值为树的最大深度。这个值是用来控制过拟合的。max_depth越大,模型学习的更加具体。设置为0代表没有限制,范围: [0,∞]

max_delta_step:默认0,我们常用0.
这个参数限制了每棵树权重改变的最大步长,如果这个参数的值为0,则意味着没有约束。如果他被赋予了某一个正值,则是这个算法更加保守。通常,这个参数我们不需要设置,但是当个类别的样本极不平衡的时候,这个参数对逻辑回归优化器是很有帮助的。

min_child_weight: 默认为0
孩子节点中最小的样本权重和。如果一个叶子节点的样本权重和小于min_child_weight则拆分过程结束。在现行回归模型中,这个参数是指建立每个模型所需要的最小样本数。该成熟越大算法越conservative。即调大这个参数能够控制过拟合。取值范围为: [0,∞]

lambda:也称reg_lambda,默认值为0。
权重的L2正则化项。(和Ridge regression类似)。这个参数是用来控制XGBoost的正则化部分的。这个参数在减少过拟合上很有帮助。

alpha:也称reg_alpha默认为0,
权重的L1正则化项。(和Lasso regression类似)。 可以应用在很高维度的情况下,使得算法的速度更快。

scale_pos_weight:默认为1
在各类别样本十分不平衡时,把这个参数设定为一个正值,可以使算法更快收敛。通常可以将其设置为负样本的数目与正样本数目的比值。

学习目标参数:控制训练目标的表现。我们对于问题的划分主要体现在学习目标参数上。比如我们要做分类还是回归,做二分类还是多分类,这都是目标参数所提供的。

**objective **:在回归问题objective一般使用reg:squarederror ,即MSE均方误差。
eval_metric :校验数据所需要的评价指标,不同的目标函数将会有缺省的评价指标。

2.本篇用到的其他模块:GridSearchCV(网格搜索)

2.2 GridSearchCV概述

GridSearchCV的sklearn官方网址:Click Here
GridSearchCV,它存在的意义就是自动调参,只要把参数输进去,就能给出最优化的结果和参数。但是这个方法适合于小数据集,一旦数据的量级上去了,很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法:拿当前对模型影响最大的参数调优,直到最优化;再拿下一个影响最大的参数调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会调到局部最优而不是全局最优,但是省时间省力,巨大的优势面前,还是试一试吧,后续可以再拿bagging再优化。 通常算法不够好,需要调试参数时必不可少。比如SVM的惩罚因子C,核函数kernel,gamma参数等,对于不同的数据使用不同的参数,结果效果可能差1-5个点,sklearn为我们提供专门调试参数的函数grid_search。

2.3 参数说明

sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose=0, pre_dispatch=‘2*n_jobs’, error_score=’raise’, return_train_score=’warn’)

estimator

选择使用的分类器,并且传入除需要确定最佳的参数之外的其他参数。每一个分类器都需要一个scoring参数,或者score方法:如estimator=RandomForestClassifier(min_samples_split=100,min_samples_leaf=20,max_depth=8,max_features='sqrt',random_state=10),

param_grid

需要最优化的参数的取值,值为字典或者列表,例如:param_grid =param_test1,param_test1 = {'n_estimators':range(10,71,10)}。

scoring=None

模型评价标准,默认None,这时需要使用score函数;或者如scoring='roc_auc',根据所选模型不同,评价准则不同。字符串(函数名),或是可调用对象,需要其函数签名形如:scorer(estimator, X, y);如果是None,则使用estimator的误差估计函数。具体值的选取看本篇第三节内容。

fit_params=None

n_jobs=1

n_jobs: 并行数,int:个数,-1:跟CPU核数一致, 默认值1

iid=True

iid:默认True,为True时,默认为各个样本fold概率分布一致,误差估计为所有样本之和,而非各个fold的平均。

refit=True

默认为True,程序将会以交叉验证训练集得到的最佳参数,重新对所有可用的训练集与开发集进行,作为最终用于性能评估的最佳模型参数。即在搜索参数结束后,用最佳参数结果再次fit一遍全部数据集。

cv=None

交叉验证参数,默认None,使用三折交叉验证。指定fold数量,默认为3,也可以是yield训练/测试数据的生成器。

verbose=0, scoring=None

verbose:日志冗长度,int:冗长度,0:不输出训练过程,1:偶尔输出,>1:对每个子模型都输出。

pre_dispatch=‘2*n_jobs’

指定总共分发的并行任务数。当n_jobs大于1时,数据将在每个运行点进行复制,这可能导致OOM,而设置pre_dispatch参数,则可以预先划分总共的job数量,使数据最多被复制pre_dispatch次

error_score=’raise’

eturn_train_score=’warn’

如果“False”,cv_results_属性将不包括训练分数。 回到sklearn里面的GridSearchCV,GridSearchCV用于系统地遍历多种参数组合,通过交叉验证确定最佳效果参数。

3. 数据清洗

3.1判断缺失值

import pandas as pd
train = pd.read_csv("train.csv")
print(train.info())

运行得到结果如下:


缺失值判断

可见共一万条数据,没有缺失值

3.2 删除重复值

我认为重复值在实际情况中出现是有可能的,所以我认为即使出现重复值,其实也不需要删除。

3.3 查看数据间的相关性

import pandas as pd
corr = train.corr()
print(corr)

得到结果


corr

由图中我们可以看出,当日温度、体感温度和当地时间跟借车数量之间的变化关联程度较高。

4.xgboost回归模型调参

4.1 调参刚开始的时候,一般要先初始化一些值:

1,选择较高的学习速率(learning rate)。一般情况下,学习速率的值为0.1。但是对于不同的问题,理想的学习速率有时候会在0.05到0.3之间波动。选择对应于此学习速率的理想决策树数量。 Xgboost有一个很有用的函数“cv”,这个函数可以在每一次迭代中使用交叉验证,并返回理想的决策树数量。

2,对于给定的学习速率和决策树数量,进行决策树特定参数调优(max_depth,min_child_weight,gamma,subsample,colsample_bytree)。在确定一棵树的过程中,我们可以选择不同的参数。

3,Xgboost的正则化参数的调优。(lambda,alpha)。这些参数可以降低模型的复杂度,从而提高模型的表现。

4,降低学习速率,确定理想参数。

4.2 xgboost使用GridSearchCV调参

三、1、Xgboost 的默认参数如下(在sklearn库中的默认参数):

我们先定义一些值:

learning_rate: 0.1

(学习率)

n_estimators: 500

(数的个数)

max_depth: 5

(树的深度)

scale_pos_weight: 1

(权重。大于0的取值可以处理类别不平衡的情况,帮助模型更快收敛)

subsample: 0.8

(用于训练模型的子样本占整个样本集合的比例。如果设置为0.5则意味着XGBoost将随机的冲整个样本集合中随机的抽取出50%的子样本建立树模型,这能够防止过拟合)

colsample_bytree:0.8

(在建立树时对特征随机采样的比例。缺省值为1)取值范围:0-1

nthread:4

(XGBoost运行时的线程数。缺省值是当前系统可以获得的最大线程数如果你希望以最大 速度运行,建议不设置这个参数,模型将自动获得最大线程)

gamma: 0

(模型在默认情况下,对于一个节点的划分只有在其loss function 得到结果大于0的情况下才进行,而gamma 给定了所需的最低loss function的值)

seed:27

(随机数的种子,缺省值为0。可以用于产生可重复的结果(每次取一样的seed即可得到相同的随机划分)

=================开始调参================

最佳迭代次数:n_estimators


from xgboostimport XGBRegressor

from sklearn.model_selectionimport GridSearchCV

import pandasas pd

# 读取数据

train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")

test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")

# 删除id

train.drop('id',axis=1,inplace=True)

test.drop('id',axis=1,inplace=True)

# 取出训练集的y

y_train = train.pop('y')

param_test1 = {

'n_estimators':range(100,2000,100)

}

gsearch1 = GridSearchCV(estimator=XGBRegressor(learning_rate=0.5,max_depth=5,

min_child_weight=1,gamma=0,subsample=0.8,colsample_bytree=0.8,

nthread=4,scale_pos_weight=1,seed=27,),

param_grid=param_test1,iid=False,cv=5)

gsearch1.fit(train, y_train)

print(gsearch1.best_params_, gsearch1.best_score_)

结果

{'n_estimators': 600} 0.908950282399466

最优决策树数量为600,得分0.908

==============分割===================

max_depth和min_child_weight

(树的最大深度,缺省值为3,范围是[1, 正无穷),树的深度越大,则对数据的拟合程度越高,但是通常取值为3-10)
(我们先大范围地粗调参数,然后再小范围地微调)

from xgboostimport XGBRegressor

from sklearn.model_selectionimport GridSearchCV

import pandasas pd

# 读取数据

train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")

test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")

# 删除id

train.drop('id',axis=1,inplace=True)

test.drop('id',axis=1,inplace=True)

# 取出训练集的y

y_train = train.pop('y')

param_test2 = {

'max_depth':range(3,10,2),

'min_child_weight':range(1,6,2)

}

gsearch2 = GridSearchCV(estimator=XGBRegressor(learning_rate=0.1,n_estimators=600),

param_grid=param_test2)

gsearch2.fit(train, y_train)

print(gsearch2.best_params_, gsearch2.best_score_)

得出结果:

{'max_depth': 5, 'min_child_weight': 5} 0.9037286898745251

我们对于数值进行较大跨度的48种不同的排列组合,可以看出理想的max_depth值为5,理想的min_child_weight值为5。

3、Gamma参数调优
  Gamma参数取值范围可以很大,我这里把取值范围设置为5,其实我们也可以取更精确的Gamma值。

from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
import pandas as pd

# 读取数据

train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")

test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")


# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)

# 取出训练集的y
y_train = train.pop('y')

param_test4 = {
    'gamma': [i / 10.0 for i in range(0, 5)]
}
gsearch4 = GridSearchCV(estimator=XGBRegressor(learning_rate=0.1, n_estimators=600, max_depth=5, min_child_weight=5),
                        param_grid=param_test4)
gsearch4.fit(train, y_train)
print(gsearch4.best_params_, gsearch4.best_score_)

{'gamma': 0.0} 0.9037286898745251

得出的结果,Gamma最优值为0。

4、调整subsample 和 colsample_bytree 参数
(subsample 用于训练模型的子样本占整个样本集合的比例,如果设置0.5则意味着XGBoost将随机的从整个样本集合中抽取出百分之50的子样本建立模型,这样能防止过拟合,取值范围为(0, 1])
(在建立树的时候对特征采样的比例,缺省值为1,物质范围为(0, 1])

我们分两个阶段来进行这个步骤。这两个步骤都取0.6,0.7,0.8,0.9 作为起始值。

from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
import pandas as pd

# 读取数据

train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")

test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")


# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)

# 取出训练集的y
y_train = train.pop('y')

param_test5 = {
    'subsample': [i / 10.0 for i in range(6, 10)],
    'colsample_bytree': [i / 10.0 for i in range(6, 10)]
}
gsearch5 = GridSearchCV(
    estimator=XGBRegressor(learning_rate=0.1, n_estimators=600, max_depth=5, min_child_weight=5, gamma=0.0),
    param_grid=param_test5)
gsearch5.fit(train, y_train)
print(gsearch5.best_params_, gsearch5.best_score_)

{'colsample_bytree': 0.9, 'subsample': 0.6} 0.9037951735474006

结果为最优值:0.9、0.6

5、正则化参数调优
(由于gamma函数提供了一种更加有效的降低过拟合的方法,大部分人很少会用到这个参数,但是我们可以尝试用一下这个参数。)

from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
import pandas as pd

# 读取数据

train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")

test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")

# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)

# 取出训练集的y
y_train = train.pop('y')

param_test6 = {
    'reg_alpha': [0, 0.001, 0.005, 0.01, 0.05]
}
gsearch6 = GridSearchCV(
    estimator=XGBRegressor(learning_rate=0.1, n_estimators=600, max_depth=5, min_child_weight=5, gamma=0.0,
                           colsample_bytree=0.9, subsample=0.7),
    param_grid=param_test6)
gsearch6.fit(train, y_train)
print(gsearch6.best_params_, gsearch6.best_score_)

{'reg_alpha': 0.005} 0.9030424269369616

结果为0.005
最后调参得到的参数组合为:

{'n_estimators': 600} 0.9008950282399466
{'max_depth': 5, 'min_child_weight': 5} 0.9037286898745251
{'gamma': 0.0} 0.9037286898745251
{'colsample_bytree': 0.9, 'subsample': 0.6} 0.9037951735474006
{'reg_alpha': 0.005} 0.9030424269369616

汇总:

from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
import pandas as pd

# 读取数据

train = pd.read_csv("D:/Python Workspace/xgboost Project/train.csv")

test = pd.read_csv("D:/Python Workspace/xgboost Project/test.csv")


# 删除id
train.drop('id', axis=1, inplace=True)
test.drop('id', axis=1, inplace=True)

# 取出训练集的y
y_train = train.pop('y')

reg = XGBRegressor(learning_rate=0.1, n_estimators=600, max_depth=5, min_child_weight=5, gamma=0.0,
                   colsample_bytree=0.9, subsample=0.7, reg_alpha=0.001)
reg.fit(train, y_train)
y_pred = reg.predict(test)

# 输出预测结果至answer.csv
submit['y'] = y_pred
submit.to_csv('answer.csv', index=False)

输出之后发现存在输出值为负数的情况,


输出值为负

明显租借单车的数量不可能为负数,所以我们在y_pred中加多一条,使他的<0的y等于0。

y_pred [ y_pred < 0 ] = 0

最终结果


FINAL

得分15.078,排名47

你可能感兴趣的:(公共自行车使用量预测活动总结)