比赛激烈升级,选手们也在紧锣密鼓地准备模型和方案,今天我们就邀请到选手Weber给大家分享他的参赛感受和上分思路,希望给同样紧张备赛的你一些思考和启发。
01
参赛感受
大家好,我是Weber,非常高兴能够参加2020腾讯广告算法大赛,这也是我第一次参加比赛。研究生期间,我主要的研究方向是推荐算法和点击率预估,与广告业务的相关度比较高,所以报名参加了本次比赛。
参加比赛的第一个感受就是紧张刺激。排行榜的这种学习模式会促使你积极地去改进模型和尝试方案,因为排行榜每天都在刷新,要保住自己的排名就必须不断地改进和尝试。
另一个感受就是“书到用时方恨少”。研究生期间我也读过很多相关的推荐论文,但面对比赛这种快节奏的模型调研、复现尝试、迭代升级的模式,还是会出现思路固化、方案单一的情况。如果平日多积累模型方案,多做实践,可能会在比赛时有更好的解题思路,从而取得更优异的成绩。当然,我也通过比赛实践,理解了厚积薄发的道理。
02
上分思路
鉴于之前已经有人分享过LGB建模,NLP序列建模的思路,在此我就不再赘述。今天,想帮大家拓展一些推荐/广告相关的思路,可以作为比赛的参考。
01
用户行为模型
因为用户的历史行为可以有效反映一个用户的个人属性,在CTR预估中,一些经典模型也对用户行为进行了有效的建模,并在实际应用中取得了收益,如DIN,DIEN,DSIN,DUPN等。这些模型不光与我们的赛题非常接近,其行为建模方式也可以非常有效的应用在我们的比赛中。
02
图模型
因为用户-物品的交互可以构建成一个用户-物品二部图,可以考虑使用图模型对用户和物品的关系进行建模,使用图网络模型,如GCN,GAT,NGCF,对用户的嵌入表示进行学习。结合业务思考,一个用户短时间内的广告兴趣序列顺序对于用户属性的反映往往是不重要的。举个例子:你今天点击了游戏广告和你10天以后点击了游戏广告都反映的是你对于游戏这类广告的偏好,从而可以反映出你的年龄大概在30岁以下,这种短时间的行为先后顺序并不重要,重要的是点击的是游戏而不是其他广告。使用图来建模可以摆脱序列的思维定式,更好地反映用户的行为喜好而非行为序列,这也更符合我们题目的建模期望。但使用图也可能存在噪音多,图结构复杂等问题,需要进行合理的问题分解和数据处理。
03
点击次数特征
点击次数是一个能够反映用户偏好的特征,只点击一次的广告有些时候存在着误触的可能,反而对真正的用户偏好带来干扰。点击多次的广告一定程度上可以有效的避免这种误触事件的发生,相较于点击次数少的广告,它更能反映用户的真实行为偏好。可以参考DIN模型中attention的思想,利用点击次数对用户行为序列进行加权,从而提升高兴趣表现特征的表现能力,同时也解决了强迫症追求八输入的同学不知道如何处理点击次数这个连续值特征的疑惑。
03
比赛期许
比赛也是一个学习的过程,我的经验也不是很丰富,如果有说的不对的地方也欢迎大家和我多交流,发散思维。结果不重要,重要的是这个学习的过程,希望通过这次比赛,大家都能有所收获。最后祝大家都取得一个好的成绩。
听完Weber选手的分享,你是否深受启发,有了新的解题思路?希望各位选手有所收获,在接下来的比赛中不断突破,迅速上分!
2020腾讯广告算法大赛报名截止时间:
5月31日
倒计时开始,抓紧报名!
有意向者可点击下方链接前往大赛官网报名参加!
2020腾讯广告算法大赛
*温馨提示:请所有选手于5月31日中午12点前完成实名认证,以免错失复赛资格
干货分享
大神干货:冠军选手分享解题思路,助你轻松突围初赛
高分选手讲解:如何突破思维圈限,从NLP角度挖掘新的解题思路
扫码加入大赛官方QQ群
或搜索群号:1094257162
和小伙伴一起解锁更多内容