阿里大数据比赛sesson2_RF&GBRT(下)

                               -----------__-----------接上文---------__----------    

                                          2、Xlab RF上手


2.1、训练特征表准备

训练的特征表gbrt_offline_section_one_24格式为:user_id,brand_id,feature1,feature2...Label    (和GBRT时候是一样的),见下图所示:

                           阿里大数据比赛sesson2_RF&GBRT(下)_第1张图片

2.2、RF训练

利用训练的特征表gbrt_offline_section_one_24,进行RF训练,如下图所以

                          阿里大数据比赛sesson2_RF&GBRT(下)_第2张图片

进入配置界面,在Features 框里勾选训练特征以及该特征连续与否,在Class框里目标处选择标签列,模型输出表处填写输出模型表名:gbrt_offline_section_one_25;进一步,点击参数配置选项卡,进入参数配置界面,进行参数配置,我们主要配置了树的棵树,配置好后,进行训练,如下图所示:

                                    阿里大数据比赛sesson2_RF&GBRT(下)_第3张图片

                                   阿里大数据比赛sesson2_RF&GBRT(下)_第4张图片

训练结束,得到RF模型表gbrt_offline_section_one_25。

2.3、RF预测

利用预测特征表gbrt_offline_section_two_11进行RF预测,如下图所示:

                      阿里大数据比赛sesson2_RF&GBRT(下)_第5张图片

进入配置界面:在结果附加列中添加user_id ,brand_id 列,勾选目标列2分类,主分类为1,这样预测结果表中就会给出预测为1 的概率值,输出信息处填写预测输出表,进行预测,如下图:

                         阿里大数据比赛sesson2_RF&GBRT(下)_第6张图片

预测完成之后即可根据conclusion=1判断预测的正样本,或者根据probability阈值判断(从一位哈工大同学大帅那里得到了如下控制推荐条数的好方法),如下图:

         阿里大数据比赛sesson2_RF&GBRT(下)_第7张图片

  最后,比赛做到现在,都快三个月了,没有了当初的兴奋,都在为刷分而刷分,早已违背了当初的参赛初衷,还有十几天就到头了,想说,终于知道啥是大数据竞赛了。。。。。。坑。。。。。。。。

                                          -----------__-----------完--------__-----------

你可能感兴趣的:(大数据,阿里,天猫推荐算法大赛)