【采访】腾讯社交广告高校算法大赛决赛第二周最大进步队伍——拔萝卜比赛经验及心得分享

腾讯社交广告高校算法大赛决赛第二周
进步最大的一支队伍
她的名字叫拔萝卜
这是一支单人队伍
而且还是少有的女孩子哦

可爱、乖巧、独立的小女孩 祝贺你
话不多说直接上照片
小编对咱们的周进步冠军同学进行了短暂的采访
于是就有了下面这篇分享
.....


最大进步队拔萝卜

大家好,我是上海交通大学的冯倩玉,参加腾讯赛也是抱着学习的心态来的,一直是和自己的成绩在比赛,有幸拿到这个进步奖也是挺开心的,作为入门级选手其实对很多基本操作还不是很熟练,复赛大部分时间摸爬滚打在数据量跟内存的斗争和提取特征上,很多从大佬那里听说的大招都还没来得及操练,就只剩下几天的时间了,不能不说遗憾。

当然在这个过程中也学到了不少东西。在这个并不高的名次上,相信前排大佬已经想我所未想,对于特征模型的运用也已经出神入化,我就简单说说我的所想所得吧,和大家共勉。

一开始的思路是先提特征,再筛选,然后训练各个基本模型,之后再进行融合。由于数据量与内存的问题,还有很多不合理的操作,经常出现谜一样的错误,debug也是一个非常耗费时间精力的事情。目前还没有进行特征融合,只对xgboost但模型进行调参,感觉还是有提升空间的。

1.有关效率
不能只关注训练结果,也要注意所花费的时间资源成本,在有限的时间内得到最大可能的提升,相信在实际工作环境中也是一样的。复赛一开始跑初赛代码不是太慢,就是内存不够用,运行缓慢等。真心觉得良好的代码架构和模块化太重要了,特征可以分成特征群去提取,经常用到的数据集可以缓存下来,这样读取起来比较方便,后面出错也不容易前功尽弃。

2.有关穿越
关于数据划分的问题,不少大佬都强调过,然而中间还是抱着泛化性质的特征的侥幸心理在全集上提过一个特征(也是偷懒),结果线上果断崩。目前用的还是两天的训练集,不管是数据大小还是运行效率都是较为合适的。

3.有关特征
特征在广告推荐这样复杂的命题下显得尤为重要,所谓特征决定上线。由于基本功的短板限制导致留给模型调参还有融合的时间不是特别够用了,所以快速学习并实现的能力也是相当重要的。基本特征就是单特征统计cvr,特征交叉cvr,用上了贝叶斯平滑也有千分位上的提升。当天的leakage特征也是带来成绩进步的最大源动力,当然一定要注意不要穿越。除此之外,不同category本身的特征可以通过交互的行为以及时间提取。最后花了不少的时间对install两个表进行分析提取,主要是针对user和app,然而提升效果没有想象中理想。

4.有关模型
Xgboost和lgb一直是大家话题的焦点,在理解算法原理以及参数的含义之后,能够更好地进行调参,先粗调再细调也可以提高一些效率。除此之外,ffm也是我很想尝试的模型,希望还来得及。

最后,也希望大家都能在这个过程中有所收获,学有所思,多多交流。

你可能感兴趣的:(腾讯算法大赛,腾讯广告)