【采访】腾讯社交广告高校算法大赛第三周周冠军——到底对不队比赛经验及心得分享

【采访】腾讯社交广告高校算法大赛第三周周冠军——到底对不队比赛经验及心得分享

经过又一周紧张又激烈的角逐

腾讯社交广告高校算法大赛产生了第三周周冠军

他们的名字叫“到底对不队”

这是由两位女孩一位男孩组成的队伍

正所谓男女搭配 效果加倍

真理始终是真理

小编对咱们的周冠军同学进行了短暂的采访

于是就有了下面这篇分享

在这里不得不多叨叨两句

两个小美女居然看不见

小编也不满意

所以打算在最后放个彩蛋~

底部有惊喜哦…

周冠军 到底对不队

大家好,我们是到底对不队,我是小昵子,另外两名队员是pfllo和zjm,我们是北京大学的研究生。我们队伍成员之前都没有参加过类似的比赛,所以完全没有经验,参与比赛的过程中也是磕磕碰碰,这次能侥幸得了一次周冠军真的很开心。

为了配合pfllo,我们整了个看不见的团队合照。

进入正题,我们的比赛心得主要有以下几个方面:

  1. 数据方面

我们前期花了不少时间在数据集的构造上。一方面我们尝试了一些数据清洗的策略,把数据集中明显不靠谱的数据剔除掉了;另一方面我们也尝试了只用某几天作为数据集,但是发现还是用全集效果更好一些,可能跟初赛的数据量并不是特别大有关。在validation划分方面,我们随机选取数据集的10%作为validation。由于不同的随机数种子产生的validation集的log-loss会有一些差别,我们也尝试了一些随机数种子使得线上跟线下的差距尽量小一些。

2、特征工程方面

我们一开始只是将所有初始特征,还有很多认为可能有效果的特征统统加入到模型中。然后开始奋力调参数,希望可以用“聪明”的模型来寻找到特征、数据之间隐含的关系。但是经过一段时间“不进则退”的状态,也看了大佬们的经验分享,我们决定仔细推敲每一组特征,并且积极借鉴大佬们的思路。

(1)不加没用的特征:特征之间如果存在强相关性会给模型造成干扰。需要控制变量,保留最有效、精简的特征。我们是使用逐一删除,对比实验来验证特征有效性。

(2)多看比赛经验、相关论文:站在巨人的肩膀上分析问题,常常能够事半功倍。我们借鉴了CTR预估等相关比赛的经验,参考了Kaggle的历届比赛分享,也看了相关获奖队伍的代码,受益匪浅。对于加特征时需要考虑的细节变得更加清楚。

(3)观察数据,因地制宜找特征:特征工程的构建需要紧密联系数据特点。判断某个特征是否有意义,不能只是空想,要做统计分析。我们可以关注一个特征在不同标签中的比例,关注是否有哪些特殊的情况会对转化有很大的影响,这种情况的占比是否大,是否有加为特征的必要……这一系列的问题都需要观察数据,做恰当的统计进行分析。

3、训练方面

相信很多人都遇到过onehot转的时候维度太大直接爆炸的问题,我们也是一样,所以采用了稀疏编码。考虑到数据量较大的问题,所以我们也花了时间在提升速度方面工作,比如xgboost的并行化配置等。后期数据更大,建议一开始就实现一个比较高效的训练方式,能够快速迭代看结果是比较关键的环节。

最后祝大家都能取得好成绩。

你可能感兴趣的:(【采访】腾讯社交广告高校算法大赛第三周周冠军——到底对不队比赛经验及心得分享)