ijcai2018-阿里妈妈广告算法赛-复赛第4名_learner_ctr队

一. 数据理解与预处理

赛题的难点在于对特殊节日下的转化率进行预测,通过对数据进行探索可以发现,1-6号的转化率稳定,属于非特殊节日,7号的转化率激增,7号的转化率受特殊节日的影响,待预测数据在特殊节日后半段。因此为了保证线上和线下的数据来自同一分布,我们需要对7号前半天的用户行为进行建模。但是提供的数据的大量用户交互数据来自1-6号,直接丢弃不是一个好方案。实际上1-6号的数据包含了稳定的用户、商品、店铺的历史信息,可以通过历史数据对用户、商品、店铺进行刻画,当做用户画像中的用菇行为描绘、以及商品火热程度的描绘。

在数据探索中,发现有部分店铺在某些时间点击量过高却无一单转化,则认定为刷点击量与信誉的行为,将这些商家对应的点击量最大却无转化的用户进行了删除,对数据进行了一个降噪。在缺失值方面,对离散型数据进行众数填充,对连续型数据进行了中位数填充。

二. 特征工程

通过上述分析,我们队伍的特征工程包括以下几类:

(1)原始特征, 包括用户星级、商品价格等级、商品销量等级、商品被收藏次数等级、商品被展示次数等级、店铺评价数、店铺好评率、店铺星级、店铺服务态度分、店铺物流服务分、店铺描述相符分等主办方提供的原始特征。

(2)历史统计特征,主要包括用户、商品、品牌等一阶特征及二阶交叉特征的点击、转化、转化率等;统计区间在1-6号,基于历史数据来进行刻画。

(3)当日统计特征,包括商品、品牌、店铺、类目当日点击量等,特征基于7号上午的数据进行统计,用来对商品、品牌、店铺、类目的当日行为进行刻画。

(4)用户行为特征,例如该用户当天第几次点击、该用户当天点击了多少次、该用户距离上次点击时间差、该用户之前是否点击过该商品、该用户之前是否有过转化、该用户在同一query下点击了几种商品、该用户在同一query下商品的价格排序、该用户在同一query下商品的历史cvr排序等。特征主体为用户,从各方面对用户的行为进行刻画。

(5)冷启动特征,例如用户、商品、店铺是否第一次交互等;用来对无历史交互行为的对象进行刻画。

(6)Embedding特征,商品相关的数据非常丰富,可以看出一种商品具有多种属性,并且由于商品id太多,OneHot后维度太大,我们决定利用商品和属性的关系将商品进行Embedding,这里借鉴了word2vec思想,可以构 建出商品属性对,输入到word2vec中,最终得到商品和属性各自的向量并直接输入到模型。在引入Item2vector后我们模型效果得到了很大提升。

三.算法模型与融合

在模型方面,我们队伍尝试了多种模型,第一种方案只用了LightGBM和XGBoost,输入不同的特征子集,使用2个LightGBM和1个XGBoost共三套模型进行sigmoid取反加权融合。

第二种方案是深度学习方案,因为初赛复赛数据量都在一定程度,可以尝试使用深度建模方案

你可能感兴趣的:(比赛)