备战2020腾讯广告算法大赛:(2017-2019比赛开源和数据等)

期待与各位在2020腾讯社交广告算法大赛中相遇!!!

写在前面

最近突然之间讨论腾讯广告赛的人多了不少,也有很多人加我微信讨论19年腾讯赛的方案和代码。虽然2020腾讯赛还未开始,不过大家已经提前进入准备阶段,或是复现之前比赛代码,或是准备自己的弹药库,在广告算法界的一场没有硝烟的战斗已经悄然开始。

作为一名老司机,也不能错过这场赛前的准备,我要做的不是准备弹药库或复现代码,而是为大家整理从2017到2019三届腾讯赛的竞赛方案资料。

当然,在整个2020腾讯广告算法大赛进行阶段,【Coggle数据科学】也会进行更多竞赛相关分享。

大赛官网:https://algo.qq.com/application/home/home/index.html

本文将分为以下三个部分:

  • 数据整理历年腾讯赛的数据集和相关介绍

  • 方案整理top方案、干货分享、梳理内容

  • 赛题预测抢先预测今年赛题的具体业务技术方向(一顿瞎猜)

数据整理

2017腾讯广告算法大赛

完整数据集下载链接:https://pan.baidu.com/s/1JnP4Vvr-6HKYlG5bNlfvMQ

提取码:ebd2

2018腾讯广告算法大赛

完整数据集下载链接:https://pan.baidu.com/s/1jSZQJbcx6vDvPNyBKEMa7g

提取码:m8tx

2019腾讯广告算法大赛

完整数据集下载链接:https://pan.baidu.com/s/1yV4l0vTmjfXjbpxxIOlKDg

提取码:iuxp

方案整理

2017腾讯广告算法大赛

第一届腾讯社交广告高校算法大赛以“移动App广告转化率预估“为主题,首次开放腾讯在社交和数字广告领域的“实战类”数据,以高度模拟真实业务的赛题方式呈现,并直指数字广告中的核心关键问题:转化预估,面向高校学生征集最智慧的算法解决方案,引领广告生态业界的核心技术方向。

相较于18和19两届比赛,第一届腾讯赛的方案分享少之又少,能够找到的开源代码也不多。经过一番煞费苦心,这里给大家整理了10强选手的答辩ppt,并对其进行方案梳理,供大家学习。

  • 一文梳理2017腾讯广告算法大赛决赛方案 

https://zhuanlan.zhihu.com/p/95418813

时隔两年,这篇决赛方案梳理悄然登场,主要针对前十名的方案进行学习,17的腾讯赛算法是比较早的ctr比赛,很多方法都值得借鉴,同时也不乏有经典的操作。当时的我还没有开始参加数据竞赛,不过在之后的比赛中,也常分析这场经典赛事。接下来让我们回到两年前,以前来学习优秀方案。

  • 第一届腾讯社交广告高校算法大赛_rank14 

https://github.com/freelzy/Tencent_Social_Ads

  • 第一届腾讯社交广告高校算法大赛_rank20 

https://github.com/shenweichen/Tencent_Social_Ads2017_Mobile_App_pCVR

  • 第一届腾讯社交广告高校算法大赛_rank23 

https://blog.csdn.net/haphapyear/article/details/75057407/

开源代码:https://github.com/BladeCoda/Tencent2017_Final_Coda_Allegro

2018腾讯广告算法大赛

本次算法大赛的题目源于腾讯社交广告业务中的一个真实的广告产品——相似人群拓展(Lookalike)。该产品的目的是基于广告主提供的目标人群,从海量的人群中找出和目标人群相似的其他人群。在实际广告业务应用场景中,Lookalike 能基于广告主已有的消费者,找出和已有消费者相似的潜在消费者,以此有效帮助广告主挖掘新客、拓展业务。目前,腾讯社交广告 Lookalike 相似人群拓展产品以广告主提供的第一方数据及广告投放效果数据(即后文提到的种子包人群)为基础,结合腾讯丰富的数据标签能力,透过深度神经网络挖掘,实现了可在线实时为多个广告主同时拓展具有相似特征的高质潜客的能力。

  • 第二届腾讯社交广告算法大赛_rank3 

https://github.com/DiligentPanda/Tencent_Ads_Algo_2018

Our model is simply an average of FFM-based Neural Networks with attention. In the final submission, we use 13 such networks. But those networks are only different in their random seeds, which is a bad ensemble actually. So, we guess 5 such networks will give almost the same result. Training on different subsets of the dataset and maybe on different subsets of features should give better results. For details of this model, seeModelp.

备战2020腾讯广告算法大赛:(2017-2019比赛开源和数据等)_第1张图片 备战2020腾讯广告算法大赛:(2017-2019比赛开源和数据等)_第2张图片
  • 第二届腾讯社交广告算法大赛_rank6_模型篇 

https://zhuanlan.zhihu.com/p/38443751

本次比赛中的最优效果的模型为nffm模型,该结构组成主要为:shallow part是LR,deep part是ffm embedding + fcs(全连接层)。

  • 第二届腾讯社交广告算法大赛_rank6_特征工程篇

https://zhuanlan.zhihu.com/p/38341881

特征主要分为了用户特征和广告特征两个大类,全部特征的都categorical的,即用一个整数表示类别。广告特征比较少,而用户特征的数量则多比较多,包括age,gender等简单的onehot类特征,也包含了interest,topic等不定长的向量特征。

  • 第二届腾讯社交广告算法大赛_rank7 

https://github.com/guoday/Tencent2018_Lookalike_Rank7th

备战2020腾讯广告算法大赛:(2017-2019比赛开源和数据等)_第3张图片 备战2020腾讯广告算法大赛:(2017-2019比赛开源和数据等)_第4张图片
  • 第二届腾讯社交广告算法大赛_rank9 

https://zhuanlan.zhihu.com/p/38499275

开源代码:https://github.com/ouwenjie03/tencent-ad-game

  • 第二届腾讯社交广告算法大赛_rank10

https://github.com/keyunluo/Tencent2018_Lookalike_Rank10th

备战2020腾讯广告算法大赛:(2017-2019比赛开源和数据等)_第5张图片
  • 第二届腾讯社交广告算法大赛_rank11

https://zhuanlan.zhihu.com/p/38034501

开源代码:https://github.com/liupengsay/2018-Tencent-social-advertising-algorithm-contest

2019腾讯广告算法大赛

本次算法大赛的题目是源于腾讯广告业务中一个面向广告主服务的真实业务产品 ——广告曝光预估。广告曝光预估的目的是在广告主创建新广告和修改广告设置时,为广告主提供未来的广告曝光效果参考。通过这个预估参考,广告主能避免盲目的优化尝试,有效缩短广告的优化周期,降低试错成本,使广告效果尽快达到广告主的预期范围。

  • 2019腾讯广告算法大赛方案分享(冠军)

https://zhuanlan.zhihu.com/p/73062485

本文将给出冠军完整方案,全文内容架构将依托于答辩PPT,具体细节也会结合代码进行讲解。当然,思路为主,代码为辅,希望这篇分享能够给予你更多的启发。

  • 一文梳理2019年腾讯广告算法大赛冠军方案 

https://zhuanlan.zhihu.com/p/85520936

本文将从源码着手,深度解读该冠军方案是如何一步步从rough data清洗、特征工程到运用多种模型融合实现最佳效果的。作为一名数据竞赛经验薄浅的算法工程师,期望尽可能的将里面涉及到的知识、技巧、模型、算法作一个细致的总结,所以行文可能比较基础难免冗长。

  • 2019腾讯广告算法大赛方案分享_rank5_含完整代码

https://mp.weixin.qq.com/s/j5YICHrkHLDm7OldPFPOjw

获胜者使用高效简洁的代码取得一致好评,在文末,队长林有夕给出了寄语:转换建模视角真的是个很神奇的操作。可以从N个角度去思考。希望有缘的人可以继续发扬光大。能在下一个赛场上,像我一样骄傲的说出,这是一个朋友分享的,并且一起完善。

赛题预测

这是个开放性的话题,具体赛题当然是围绕着广告业务展开的,所有这是个熟悉广告业务的机会,首先回顾下之前赛题业务:

2017/2018:CTR(点击率)预估是所有广告系统、推荐系统中非常重要的一个指标,可以反映出一个系统是否做的精准,是各个广告系统的“必争之地“。点击率预估的目的是为了广告排序,排序的依据是eCPM,即点击率*点击单价,然后再根据其他策略进行后续处理。18年的赛赛题lookalike也可以看出CTR预估,点击概率高则被划分到一个种子群组。

2019:曝光是广告投放的首要任务,其也是效果转化的源头,根据广告的综合得分排序,面向同一个目标受众竞争展示的机会。一般广告曝光的原理会跟综合得分与广告的出价、质量有关。广告质量的影响因素有点击率、新鲜度、相关性、稳定性、投放时长等。

目前的两个关键问题已经在之前三届出过了,接下来可以从数据多样性或其它核心业务出题

数据多样性:可以看作多模态学习,我们所看到的广告不仅有结构化的数据,还有展示图片、文本描述等,跨模态学习日益引起了学术界和工业界的关注。跨模态学习进行联合特征学习和跨模态关系建模,旨在有效地利用不同模态内容的相关性进行系统性能优化。这就与2020 KDD中的一道赛题比较像了“KDD Cup 2020 Challenges for Modern E-Commerce Platform:Multimodalities Recall“。个人感觉在数据多样性上做文章可能性蛮大的。

出价类问题:广告的出价问题是伴随着RTB的发展而发展的,最为著名的就是谷歌采用的广义第二高价方式,可以说对于RTB广告影响深远,不过最近有说谷歌由于各种原因可能会采用一价方式,不管怎样,广告对于出价的考虑都是一个非常重要和系统的问题。另外像百度,他们的出价也是在一个不断迭代的过程,从一价、二价、梅森拍卖、优化出价等不断的在进行迭代。值得说明的是很多出价模型非常依赖于预估的解,出价相关的问题比较少见。

防作弊问题:对于计算广告,防止作弊是十分紧要的问题,一般的作弊处理分为在线防作弊和离线反作弊。作弊系统更为常见的是一些规则,一些具体的规则定义往往可以成为一种标准。当然,对于作弊数据的建模也是可以做算法去区分的,这类问题也是比较常见的。

经过一顿瞎猜后,今年的赛题锁定在了三个方向数据多样性、出价优化相关、防作弊相关。大家伙可以一起讨论讨论今年的赛题方向!!!

往期精彩回顾




适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载(pdf更新到25集)本站qq群1003271085,加入微信群请回复“加群”获取一折本站知识星球优惠券,请回复“知识星球”喜欢文章,点个在看

你可能感兴趣的:(备战2020腾讯广告算法大赛:(2017-2019比赛开源和数据等))