【广告技术】下个月会有多少用户看到洗发水广告?最先进的张量分解模型给你最好的答案

01

“下个月会有多少用户看到洗发水广告?”

每个用户访问互联网页面的时候都会看到广告,点击观看视频的时候还会看到贴片广告。对广告平台和广告主来说,提前预估这些广告的观看量,也就是**“预测广告库存”**,是一件很重要的事情,这不仅关系到广告平台给出的投放报价,也关系到广告主的投放策略。

然而预测广告库存并不简单。首先,用户的访问量是不断变化的,今天和明天不一样,星期五和星期日不一样,这个月和上个月不一样,今年和去年不一样。就算拥有很多历史数据、能发掘到一些波动规律,想要准确预测未来三十天的访问量情况也仍然有很大难度。它就好像天气预报,即便气象局用最先进的仪器和方法收集了过去几十年的详细的天气数据,也还是无法保证真实的天气状况和预报完全一致。

其次,现代的广告投放是和用户分类、推荐系统结合在一起的,广告平台要根据每个类型的用户的需求和消费能力,让他们看到最适合的广告;广告主也希望针对性地让潜在客户看到广告。对于广告库存预测来说,这相当于是在预测总体访问量的基础上,要进一步弄清其中的某些特定类型的、会看到某种广告的用户有多少。这里需要对用户分类或者运用用户标签,不仅多出的这些要求增加了额外的复杂度,用户分类、用户标签本身的准确、合理程度也会影响广告库存预测的准确程度。

一个典型的例子比如,如果想要知道下个月会有多少用户看到洗发水广告,这不仅要参考历史数据,看看以往每个月是哪些分类的用户看到了广告、访问量有多少,还要考虑到未来要让哪些用户看到洗发水广告。如果这支新投放的广告瞄准的目标人群和以往的广告一样,这个问题也许会简单一些,但如果是新的产品定位、面向新的目标人群的广告,那么预测是否准确就很大程度上取决于对目标人群的描述是否准确,以及能否从历史数据中准确捕捉这个群体的特点。

02

继续提升预测准确率,面前有三座大山

在机器学习领域里,广告库存预测任务的本质是根据一段时期的历史数据预测未来一段时间内的数据,这个问题被称作**“时间序列预测”**。它是一个尚未完全解决的问题,而且越是来自现实世界的问题,就越难以快速完全解决,比如天气预报、产品销量预测、甚至GDP预测。

在广告库存预测问题上,除了数据本身随着时间变化之外,还要考虑用户分类的影响。典型的做法是,把用来描述用户分类的一组属性标签也输入模型,比如“上海”、“男性”、 “30-40岁”,模型会首先找到符合这组标签的用户的历史访问数据,然后根据这些数据预测未来的访问量。

一直以来科学家和工程师们都在尝试用各种思路不断改进时间序列预测的准确率,使用的方法从ARIMA、GARCH、TBATS等传统时间序列模型,进化到基于LSTM、CNN的深度神经网络的预测模型,模型从数据中发掘规律的能力越来越强,预测准确率也得到了逐渐的提高。

不过,即便是现阶段表现最好的深度学习模型,也还有不少改进的空间。一方面是针对准确率本身,我们总希望模型能在同样的历史数据、同样的预测条件下,得到更高的准确率;另一方面是希望预测模型能更好地和业务需求结合,比如对于腾讯广告这样具有十亿级用户的平台,预测模型显然需要有超大规模的数据处理能力,需要能处理复杂多样的用户特征,以及帮助广告平台更好地分析理解用户属性。

根据我们的研究,现阶段的基于深度学习的预测模型还有这三方面问题需要改进:

(1)

更好地应对数据规模和属性规模

随着用户数据增加、用户特点越来越多样化,广告平台希望建立更细致、精准的用户画像,就需要引入更多的属性标签。随着标签增多,标签之间的组合数量也会成倍增长,这会导致模型需要处理的数据维度成倍增长,模型的可拓展性、资源消耗面临挑战。而且,十亿级别用户对应的数据量,始终都愿意青睐更高效、更快速的模型。

(2)

洞察全体用户,更好地处理复杂属性标签

更精细的属性标签组合固然可以帮助广告主更好地定位到自己的目标用户,但在实际业务操作中,这往往意味着符合这组标签的用户更少了、模型会作为参考的历史访问量数据也变少了。甚至于,有一些属性标签组合可能会过于精细,覆盖到的用户太少,或者有一些标签之间交集太少,乃至有冲突,这就会开始误导模型,严重影响预测准确率。

如今既然有十亿级的用户数据,我们其实希望模型能对全体用户有一定的洞察和理解,并且基于这些洞察理解来更好地处理每组具体的属性标签对应的用户数据(而不是孤立地处理这一组数据),以求达到更好的预测效果。而且,同样基于这些洞察理解,我们也希望能提取出每组属性标签中最核心、最具决定性的要素,既避免被不恰当的属性标签组合误导,也有利于广告实际投放中的推广泛化。

(3)

兼顾长短周期变化

现阶段的模型对短时间周期(比如相邻的几个月间)的变化已经有了不错的捕捉能力,但很少有模型能体现长时间周期、“年”级别的变化。比如春节、五一小长假、十一小长假期间会有访问量的波动,而且这些波动的模式是每一年都类似的,如果能有效参考往年的数据,就能大大提升再次到来时的预测准确率。

03

基于张量分解的模型带来革命性提升

在论文:**《Large-scale User Visits Understanding and Forecasting with Deep Spatial-Temporal Tensor Factorization Framework》**中,来自腾讯和中国科技大学的研究人员们针对上述三个改进方向,设计了一个新的广告库存预测模型。

它的最大特点是采用了深度时空张量分解的模型框架,让模型有能力从历史数据中解耦得出属性组合、短周期时间序列变化、长周期时间序列变化这三个因素的分别影响,大大提升了模型的序列分析建模能力。针对属性标签组合的输入,模型采用了一个注意力嵌入机制,让模型更多地关注输入属性中的关键部分,并且和张量分解过程中得到的属性组合张量相配合,共同改善了针对用户特点的建模和预测能力。此外,模型采用了一种新的多任务训练机制,也在提升效果的同时,节约了模型的体积和计算资源,同时还进一步提升了预测准确率。

这个模型的设计就是面向实际广告业务应用的,用来自真实业务的数据测试它也最能反映它带来的提升。腾讯视频网站访问数据集含有三年的真实用户访问数据(已经过匿名处理),每天的访问量都有数十亿次,是非常庞大的时间序列;从用户特征的角度,至少包含1000个用户的属性组合就有超过一万一千种,这也表明了用户特征的丰富和复杂程度。

在测试中,要求模型把17个月的历史数据作为训练数据,然后预测之后的连续28天的访问量,并把预测值和那段时间的真实访问量做对比,计算两组数据的标准差。论文中提出的模型当然得到了最好的成绩,标准差比传统的时间序列模型ARIMA降低15.6%,比基于CNN的深度神经网络预测模型降低8.7%,也比矩阵分解+深度学习的模型降低5.8%。

除了预测准确率本身,模型也体现出了别的适应业务需求的优点:即便训练数据中有20%都丢失,模型的准确率也只有非常小的下降,这显著提高了模型应对突发情况的能力;而且,虽然这个模型比基于CNN的模型有明显的预测准确率提高,它的参数数目却只有CNN模型的三分之一左右,这也极大节省了计算资源

04

实际广告业务获益匪浅

基于高维、海量历史数据预测未来的访问,准确回答类似“下个月会有多少用户看到洗发水广告”这样的问题,无疑是广告平台用户分析、流量理解能力的体现,也对广告售卖、广告投放有着非常重要的意义。

更准确的广告库存,也就是更准确的预期广告曝光量预测,可以帮助广告主更明确地把控广告的目标受众,进而制定更精细、更有针对性、且长期迭代升级的广告营销策划;创造曝光量、提供广告位的媒体可以借助广告库存预测指导流量管理与运营,更加明确自己的服务受众,创作更流行更受欢迎的内容。

对广告平台而言,更好地理解平台上的用户和流量特征,能够让平台更好地服务用户、调配资源,能在合作中更好地帮助广告主和媒体达到自己的目标。更重要的是,更准确的曝光量预测也就意味着更高的广告订单达成率,这对提高广告主的满意度、提高广告平台的营收都有直接的提升作用。广告主获得了更好的售卖与投放体验之后,也能够加深对广告平台的信任,进一步提升广告平台的营收增长。

广告主和广告平台的真实接口
上文中介绍的模型有如此优秀的表现,腾讯广告也很快就把它应用在了实际业务中。截至2018年8月论文发表时,这个模型已经正式在腾讯在线广告系统部署上线了5个月了,已经依靠更准确的预测、更有效的用户覆盖、更可靠的广告投放效果保证,带来了广告平台营收的显著增长。

关于这个模型技术细节的深入讲解,我们将邀请论文作者在wiztalk系列学术视频中为大家详细介绍。敬请期待。
【广告技术】下个月会有多少用户看到洗发水广告?最先进的张量分解模型给你最好的答案_第1张图片
直播时间:6月11日 19:00

中国科学技术大学计算机学院、特任教授张兰将在Wiztalk腾讯广告专题直播中分享如何用最先进的张量分解模型对广告库存进行预估。赶快扫描上方二维码或点击【阅读原文】预约观看直播吧!想要了解更多【广告技术】课程,可点击腾讯广告算法大赛公众号主页底部菜单栏【干货学堂】,或进入**【直播回看】**专区观看课程回顾,掌握更多技术知识。

学习了理论知识还不够,更要在实际的广告环境中去研究和演练!由腾讯广告与腾讯高校合作联合发起的“2020腾讯广告犀牛鸟专项研究计划”已正式开启。项目面向全球高校全职学者或科研机构的全职研究人员,鼓励学者们参与到产学研合作的平台中,共同探索影响广告技术长远发展的前沿问题。有意愿参与“2020腾讯广告犀牛鸟专项研究计划”的老师和同学们,可在点击:

【犀牛鸟计划】

查看更多申报信息

点击下方链接,一键预约观看直播

Wiztalk腾讯广告专场系列分享(二)

你可能感兴趣的:(腾讯算法大赛)