利用XGboost简单粗暴zillow竞赛25%

Zillow Prize是一个拥有巨额百万美元奖金的比赛。竞赛共有两轮,只有在预赛中进入前100名的参赛选手才有资格参加第二轮比赛,因此我们的目标是进入前100。在这篇文章中,我用XGBOOSt得到Score约0.0645左右的成绩。

一、简介

第一轮预选赛2017年5月24日开始,在预选赛中,你将建立模型用于提高Zestimate的残留误差,帮助Zestimate进一步提高预测的精准度。因此,在这个百万美元的竞赛中,我们需要开发一个用于预测房子未出售价格的模型,对美国110㎡左右的房子的价值进行估计。

二、数据读取和预处理

1.导入依赖包

Pandas 是数据处理的大杀器,结合Numpy可以完成绝大多数的数据预处理任务。

2.读取数据

利用XGboost简单粗暴zillow竞赛25%_第1张图片

有三个文件需要读取:train_2016.csv、propertie_2016.csv和sample_submission.csv。利用pandas 的read_csv()将数据读取为dataframe。

文件描述 
Properties_2016.csv:包含2016年房屋特征的所有内容。
Train_2016.csv:2016年1月到2016年12月的训练数据集
Sample_submission.csv:正确提交文件的实例

3.创建训练集

将Properties_2016和Train_2016的数据根据parcelid字段进行组合,得到训练数据集。

4.将数据类型转换为float32

利用XGboost简单粗暴zillow竞赛25%_第2张图片

我们将训练集df_train中的float64数据类型的数据转换为分float32,用以节约我们的训练资源,加快模型的训练速度。

三、特征工程

参加了几次kaggle比赛,我比较认同kaggle是以特征工程和调参为主的说法。做特征工程这一步需要我们对数据集进行深入探索,这一步在Kernerls上有很多很优秀的Kernel可以进行参考。

训练集的数据量是比较大的,因此,通过学习大神们的kenerls,可以对数据集有一个比较详细的了解。在特征工程这一步我们主要做的就是特征预处理和特征选择。

第一步:样本选取

logerror是残留误差,通过下图的数据探索我们可以看到主要分布在[-0.4.0.4]这个范围内,因此将超出这个范围的的数据从训练集中删除。

利用XGboost简单粗暴zillow竞赛25%_第3张图片

第二步:特征选择

[‘parcelid’,’logerror’, ‘transactiondate’, ‘propertyzoningdesc’,’propertycountylandusecode’]与我们的训练无关,从训练集的参数中删除。
注:数据和特征决定机器学习的上限,而模型和调参是逼近这个上限。特征工程是kaggle竞赛中极为重要的一步,在后期我们需要花更多的时间来做Feature Engeneering。

四、模型选择和调参

在Zillow比赛中,我们的需要预测的是连续型的数值,可以算是一个回归问题。针对回归问题,我们有很多模型可以选择,在zillow竞赛中我选择了最近比较火的XGBOOST模型。

1.XGBOOST简介

XGBoost :eXtreme Gradient Boosting
XGBoost是由 Tianqi Chen(homes.cs.washington.edu)最初开发的实现可扩展,便携,分布式 gradient boosting (GBDT, GBRT or GBM) 算法的一个库,可以下载安装并应用于 C++,Python,R,Julia,Java,Scala,Hadoop,现在有很多协作者共同开发维护。

XGBoost 所应用的算法就是 gradient boosting decision tree,既可以用于分类也可以用于回归问题中。

2.XGBOOST的特点

我选XGBoost最重要的原因就是它的计算速度快,模型表现好。
一般来说,Gradient Boosting 的实现是比较慢的,因为每次都要先构造出一个树并添加到整个模型序列中。而XGBoost训练时可以用所有的CPU内核进行并行化建树,大大加快了训练的速度。同时,XGBoost在预测问题中模型表现非常好,在kaggle比赛中,很多冠军在赛后的分享中都提及使用XGBoost。

3.XGBoost训练和调参

利用XGboost简单粗暴zillow竞赛25%_第4张图片

调参这个步骤花了我挺多时间。在进行了简单的特征工程后,我的大部分时间都花在了调参上,XGBoost的调参是比较重要的,过后我会专门写一篇文章来介绍XGBoost调参部分。

这里比较笨的思路就是不断尝试参数。比如max_depth开始设置为一个比较常规的值10,然后下一次设置为8,模型有提高就用6再尝试,否则尝试12。依次对其他参数进行调试。

五、预测并提交Kaggle平台

最后一步就是将我们的训练模型在预测集上进行预测,并提交预测结果到Kaggle平台。

利用XGboost简单粗暴zillow竞赛25%_第5张图片

目前的排名在25%,还需要不断的优化来提高成绩。

完整代码我放到了百度云,关注微信公众号:kaggle数据分析 ,后台回复

zillow会有完整的代码打包下载。

你可能感兴趣的:(机器学习)