KDD 2020 | 多任务保量优化算法在优酷视频场景的实践

导读:今天分享一下阿里优酷视频在KDD 2020上的一篇关于新热视频保量分发上的实践,建立了新热内容曝光敏感模型并给出了一种多目标优化保量的算法,推荐工业界实战干货论文,值得细读。

KDD 2020 | 多任务保量优化算法在优酷视频场景的实践_第1张图片

论文:Multi-objective Optimization for Guaranteed Delivery in Video Service Platform

地址:https://dl.acm.org/doi/pdf/10.1145

/3394486.3403352

 

摘要

保量对于视频平台的IP视频内容来说,是一种非常重要的投放策略。不同于传统的推荐策略,保量一般出于供应商或者商业角度考虑要求投放系统针对特定内容保证一定的曝光量。在本文中,我们主要研究如何在保量策略限制的前提下最大化在VV浏览量或者不同业务之间的公平性方面的收益。我们将这个问题建模为一个带约束的非线性优化问题,建立一种能够描述内容点击量随着曝光量变化趋势的常微分方程ODE模型,并使用遗传算法来求解。在离线数据以及优酷视频场景的实验验证了本文方法的有效性。

背景

对于譬如优酷这样的在线视频网站来说,新热视频内容都需要通过增加分发曝光来达到播放量的最大化,但是各个场景每天的总体曝光资源是有限的,因此关键问题来了如何将有限的曝光资源分配给特定的新热视频内容就变得尤为重要了。这其实就是典型的保量系统。最开始每个新热视频内容会被设定各自的曝光量,然后保量系统会参考各视频内容的曝光量需求寻找适合的用户。虽然在广告分发领域已经有一些保量算法被提出了,但是内容保量方面的算法策略却很少而且有其特定的特点:

  1. 对于视频内容投放来说,尤其是大的IP视频内容,内容平台经常需要重复投放给目标人群。一方面是因为资源量是有限的;另外一方面是重复曝光有更大的概率可以带来更多的潜在视频消费用户;

  2. 考虑CTR随着曝光的变化趋势的前提下对视频内容的投放问题进行建模给模型和投放策略都带来了新的挑战;

 

在本文中,我们设计了一个两个阶段的框架:第一步是预测;第二步是投放。在预测阶段,使用常微分方程ODE来根据内容的历史PV与点击记录来预测用户的点击行为,也就是pv-click-ctr模型(简称P2C模型)。在投放阶段,考虑各场景以及位置的曝光资源约束,我们给出了一种在资源约束下的多目标优化的保量算法。

KDD 2020 | 多任务保量优化算法在优酷视频场景的实践_第2张图片

内容曝光敏感度模型

每一个视频内容的CTR变化趋势涉及到的因素特别多,要想将这些因素都考虑进来是不可能的。相反,我们从另外一个角度来思考这个问题。通常情况下对于特定的视频内容来说,点击PV会随着曝光PV的增加而增加。因此,我们根据内容曝光PV和点击PV历史数据,建立一种能描述内容点击量随着曝光变化趋势的常微分方程ODE,即pv-click-ctr(P2C)模型,整体结构如下图所示。

KDD 2020 | 多任务保量优化算法在优酷视频场景的实践_第3张图片

 

对于一个特定的内容而言,由于自身或者外部多种因素的限制(譬如特定内容的目标用户是有限的),随着曝光的增加相应的点击量并不会一直保持线性的增长,相反对应的点击量会存在最大值或者饱和值。这种点击“饱和”的现象可以从分析内容的历史曝光量与点击量的趋势得到。定义饱和度为当前点击量与饱和值的差距与最终饱和值的比值。

 

对于任意视频内容,随着点击PV的增加,点击PV的饱和度会减少,而且单位曝光PV带来的点击PV的增量也会减少。也就是说,点击PV的增量与饱和度存在着正相关关系。可以用如下图公式所示:

也就是说,点击PV随着曝光PV增长的常微分方程模型如下,于是积分求解便可以求解得到点击PV随着曝光PV变化的解:

KDD 2020 | 多任务保量优化算法在优酷视频场景的实践_第4张图片

值得注意的是,上式5中的常数项正相关系数γ和特定item的饱和值y_m可以采用最小二乘法针对历史PV和点击数据进行拟合。

内容保量模型

基于上一节中介绍的P2C模型,保量模型的任务就是在各场景和曝光位置资源有限的情况下,给出特定内容近似最优的曝光量。整体流程图如下图所示:

KDD 2020 | 多任务保量优化算法在优酷视频场景的实践_第5张图片

首先,使用P2C模型针对每个特定内容,采用最小二乘法拟合得到P2C模型中的两个参数饱和值以及正相关系数。从而给出每个内容点击随着曝光变化的函数关系;

其次,基于给定的优化目标和约束条件,可建立PV分配的多目标非线性优化模型。主要的优化目标包含两个:多场景观看VV最大化;内容池内容CTR方差最小化。CTR方差最小化是内容池各内容曝光公平的一种形式化约束,用来平衡“欠曝光”以及“过曝光”。

 

如下图所示,左边分别表示了两个主要的优化目标,以及相应的资源约束条件。资源约束条件包含了场景、抽屉、坑位和内容等方面的曝光PV约束限制。可以发现优化问题是一个带约束的多目标优化问题,为了方便求解最优解,通常来说都可以引入算子 λ 将其转化成一个单目标的优化问题。也就是如下右图所示。

KDD 2020 | 多任务保量优化算法在优酷视频场景的实践_第6张图片

 

由于目标函数本文采用数值方法求解,目标函数是非线性而且不连续的,使得上述保量优化模型无法应用传统的基于梯度的算法求解。本文使用遗传算法GA来进行投放,它也是一个迭代优化的算法而且其中的适应值函数计算采用了P2C模型。他主要包含了两个部分:考虑到ODE约束的内容编码;以及局部搜索求解操作。

 

这个投放优化问题的最终解就是这里的内容编码,也就是不同的内容在不同抽屉的位置上的曝光PV量。建模上,首先针对任意的内容i,使用PV值生成一个排列;然后将所有内容的组合合并起来便得到了最终的编码也就是上右图单目标优化问题中的X。

实验结果

实验结果的评估上,本文选取了多个新热内容,分别针对P2C模型和保量模型的预测效果进行评估。对于P2C模型的评估,我们分别采用P2C模型和平滑CTR方法预测新热内容的点击量,从下表中可以看出P2C模型可以有效预测点击量。

KDD 2020 | 多任务保量优化算法在优酷视频场景的实践_第7张图片

对于保量模型,则是主要对比了GA保量模型的计算与线上真实的数据之间的绝对误差百分比来评估其有效性。

KDD 2020 | 多任务保量优化算法在优酷视频场景的实践_第8张图片

 

参考文献

1. Multi-objective Optimization for Guaranteed Delivery in Video Service Platform

2. https://developer.aliyun.com/article/764846

你可能感兴趣的:(算法,python,机器学习,人工智能,java)