阿里妈妈IJCAI_2018赛后总结

赛题背景

关于比赛的介绍,这里就不做赘述了
https://tianchi.aliyun.com/competition/introduction.htm?raceId=231647

成绩不够好的原因(一百多名,总人数5000多人)

  1. 首先也是最重要的是“弱”, 会的东西太少, 比赛没有用到什么特别特殊的方法, 稍微特殊一点的只是lgb+lr
  2. 复赛方向有问题, 没有在提取特征上花费足够多的时间
  3. 没有一套完善的特征筛选的方案,纯粹的凭借感觉, 虽然有尝试用一些网上别人提过的方法, 但是效果都不好
  4. 复赛过程中精力不是很集中

具体的方案

训练集选取以及验证方式的选定

  由于第七天(特殊日期)上半天作为训练集,这么选取的原因有两个。一是第七天上半天距离第七天下半天近(线上测试集),二是因为前面几天的数据分布和第7天差异过大。
  验证方式采用直接在训练集上面做一个交叉验证,但是这种方式个人赛后觉得不太合适,因为我本地lgb要优于lgb+lr,但是实际线上lgb+lr要优于lgb,这里交叉验证并没有发现lgb的过拟合。所以个人一定程度上觉得这个验证方式可能不是特别合适。但是绝大多数时候cv还是可以同线上保持同样的趋势。

特征

  将训练集合划分成3部分,第0天到第5天,第6天,以及第7天,分别按照这三段分开提取特征,这么提取的原因是因为刚好,第0天到第5天的数据分布是一样的,所以可以看作正常时间内的表现;第6天点击量非常多,但是交易率非常低,所以可以看作是特殊日期前,第七天交易率非常高,可以看作是特殊日期当天。所以这里我提取特征也分成三个部分。具体的每一天提取的特征每个人都大同小异,这里就不多赘述了。

模型

lgb+lr: l g b + l r :
  我这里采用的lgb+lr模型分为两层,第一层为多个lgb,第二层为一个lr。
  训练集中有一些id类特征,将那些类别非常多的id类特征单独拿出来,每一个特征单独训练一个lgb,最后将剩下的连续特征以及类别比较少的离散特征训练一个lgb。利用这些lgb的叶节点来提取特征,然后将提取出特征的数据集拿去训练lr,这样我们就得到了一个lgb+lr的模型

写的比较泛泛, 详细的东西日后一点一点再加

你可能感兴趣的:(统计学习方法)