【采访】腾讯社交广告高校算法大赛第二周周冠军——Groot 比赛经验及心得分享

【采访】腾讯社交广告高校算法大赛第二周周冠军——Groot 比赛经验及心得分享

经过又一周紧张又激烈的角逐

腾讯社交广告高校算法大赛产生了第二周周冠军

他们的名字叫Groot

三个冷静沉着的大男孩

低调的实力派,祝贺你们

小编对咱们的周冠军同学进行了短暂的采访

于是就有了下面这篇分享

周冠军 Groot

大家好,我们是Groot队,我是Groot队的队长wsss,还有两位队员,gjj,抓马,现在都是中国科学技术大学的研究生,很荣幸有机会与大家分享本次比赛的经验。最早有参加过Kaggle的Bosch Production Line Performance比赛,虽然成绩不理想,但也积累了一些经验,再加上大家的努力,侥幸在这次比赛拿了一次周冠军。

下面主要介绍一下我们在这次比赛的一些思路,希望能够帮助到大家:

  1. 训练集构造

和之前郭达雅大神的分享经验类似,比赛初期最重要的就是构建有效的训练集,能够尽量与线上情况同步,数据集划分方案大家可以参考腾讯广告算法大赛官方公众号推荐参考的几个比赛的信息。在构造好训练集合后,一般来说如果线上线下的差距比较大那有可能是你提取的特征有信息泄露,或者是你在对提交数据部分的特征提取与在训练集上面提取的特征方式有较大出入。

2、模型选择

现在可以选择的模型有很多,就目前而言我们选择的还是XGB,因为相比较其他的模型,它整个的训练反馈过程会比较迅速,有利于前期快速的对特征进行迭代,可能以后也可能会去尝试一些不同的模型,我们目前的主要精力是放在特征工程的部分。

3、特征工程

除去之前的数据预处理等工序,比赛很大的一部分工作应该就是特征工程了,按我们暂时的思路来说,最主要特征的来源一部分是参考之前同类比赛的分享经验,另一部分就是针对本次数据的理解,一般是进行一些统计信息的分析,再一个就是在你构造的数据集中,观察原始数据,我们可能会选择性的对一些label=1的用户进行一些分析,针对他的历史交互,安装app等信息,从用户的角度去思考可能决定他点击广告后发生激活的原因,由此提取出一些可能的特征,之后再进行特征提取以及验证,因为目前我们的特征数目以及模型比较小,完整的训练加预测基本可以在几十秒就可以完成,所以比较方便我们对特征的筛查以及利用xgbfir等工具对特征的分析。一般来说通过对特征的分析也会一定程度加深对数据的理解以及发现一些可能的特征之间的关联。

4、设备

初赛的数据大小还可以接受,我们的程序基本没有进行太多优化,可能大一点的内存会方便你加载整个数据进行观察,不过对于提特征以及后面的训练部分,基本资源消耗很少,一般的笔记本电脑就足以完成。

感想:

总的来说这次拿周冠军多少有些巧合成分,我们的经验也不是很充足,所以有不对的地方还希望各位多多谅解。对于没有参加过类似比赛的同学,我们觉得还是应该尽量参与,因为即使最后没有取得理想的成绩,通过比赛结束后优胜队伍的分享你也会学到很多东西,这个和直接等比赛结束再去看优胜队伍的比赛方案是不一样的,希望大家都能通过比赛学习到一些东西,有所成长。

最后祝大家比赛取得好成绩!

你可能感兴趣的:(【采访】腾讯社交广告高校算法大赛第二周周冠军——Groot 比赛经验及心得分享)