简介:对于新热视频的投放来说,每个视频能投放的资源是十分有限的,如何科学地分配各视频的曝光资源,增加每个视频自身的曝光从而达到播放量最大化,是一个非常值得研究的问题。本文将分享阿里文娱高级算法工程师雷航在内容流量管理上的实践,通过分析其中的关键问题,建立了新热内容曝光敏感模型,并最终给出一种曝光资源约束下的多目标优化保量框架与算法。
一 业务背景
保量策略对于视频内容来说,是一种很重要的投放策略。新热视频内容都需要增加自身的曝光资源来达到播放量最大化,而各场景(首页、频道页等)的总体资源有限且每个抽屉坑位的日曝光资源有限,因此各内容的曝光资源分配存在竞争问题。另外,不同场景之间相互独立,每个场景根据自身的目标进行效率和体验上的优化,但是场景与场景之间流量协同无法通过优化单一场景来完成。
为内容分配曝光量涉及到关于曝光和点击建模问题,以及内容的未来点击量预测问题。内容曝光、点击和播放等构成了一个复杂的非线性混沌系统,不仅取决于内容质量本身,也取决于内容更新时间、更新策略和用户点击习惯等。传统的统计预测模型无法阐述外部环境的各种干扰因素以及系统的混沌特性,即无法从机理上描述系统本质。针对此问题,我们首先通过分析新热内容的历史曝光点击日志,使用常微分方程建立了新热内容曝光敏感模型,即pv-click-ctr模型(简称P2C模型)。在P2C模型基础上,结合各场景和抽屉的曝光资源约束,给出一种曝光资源约束下的多目标优化保量框架与算法。
二 内容曝光敏感度模型
通常情况下,点击PV(click)随曝光PV增大而增大,即高曝光带来高点击。但是,内容消费者数量有限,给同一个消费者针对单一内容重复曝光并不会带来更多的点击量。这种点击“饱和”现象可从内容的历史曝光点击日志观察得到。受此现象启发,我们根据内容曝光PV和点击PV历史数据特点,建立一种能够描述内容点击量随曝光量变化趋势的常微分方程(Ordinary Differential Equation, ODE)模型,即 pv-click-ctr (P2C) 模型,整体结构如图3所示。
一个内容由于自身因素和外部环境的限制,对应的点击量存在最大值或饱和值定义为当前点击量和饱和值的差距与饱和值的比值,即
对于任意一个内容,随着pv的增大,click饱和度减小,且单位pv带来的click增量(简称click增量)与当前click比值呈下降趋势。也就是说,click增量与饱和度存在正相关关系,可用下式表示:
其中,为正相关系数。根据式(2),可以得到click随pv增长的常微分方程模型。
对式(3)分离变量后两端进行积分,可以得到
其中,分别为初始pv和click。
对于式子 (4) 中的参数,可采用最小二乘法拟合。这里首先需要对历史pv和click数据以及参数进行过滤和预处理。
(a)样本点过滤原则。分别在日历史pv和click数据序列选取最大递增子序列。
(b)参数预处理。由于点击量饱和值
(c)样本点预处理。为了避免最小二乘法在拟合参数时陷入局部最优,分别对历史样本(click值y,pv值x)进行数据变换,即:。经过参数拟合过程,可得到单一内容pv-click函数关系。进而可进行pv-click-ctr预测,这里可采用有限差分的数值解法预测,也可将数据点代入式子 (4) 预测。
三 保量模型&算法
基于上一节建立的P2C模型,本节任务是在各场景和抽屉曝光资源有限的情况下,给出每个内容近似最优的曝光量。整体方案流程如下图:
首先,基于pv-click-ctr预测的常微分方程 (ODE) 模型,针对内容池中每个内容,采用最小二乘拟合ODE中的两个参数:click饱和值。从而给出每个内容pv-click函数关系。
第二,基于给定的优化目标和约束条件,可建立pv分配的多目标非线性优化模型。在将业务问题抽象为数学模型之前,有必要对模型中的符号进行说明,如下所示。
上述模型的优化目标包含两个:多场景vv最大化,内容池内容ctr方差最小。需要注意的是,这里的ctr方差最小是曝光公平的一种形式化描述,用以平衡“过曝光”和“欠曝光”。约束条件分别表示了场景、抽屉、坑位和内容的曝光PV约束。由于目标函数我们采用数值方法求解,使得上述优化模型无法运用传统的基于梯度的算法求解。而进化算法提供了一种解决方案,这里选取遗传算法(GA)求解。需要说明的是,GA中的适应值函数计算采用了P2C模型。
四 实验结果
我们选取多个新热内容,分别给出P2C模型的预测效果以及保量模型的离线效果。这里的评估指标是均方根误差 (RMSE) 和绝对误差百分比 (APE)。分别采用P2C模型和平滑ctr方法[1]预测新热内容的点击量。从表中可以看出P2C模型可以有效预测点击量,在RMSE方面优于平滑ctr方法。
线上实验部分,我们建立了分桶实验。基准桶采用人工策略保量;实验桶采用本文提出的策略,实验过程中关注和对比基准桶和实验桶每日投放效果(CTR方差、策略在场景上的整体CTR等)。以下给出30天和7周的保量效果数据,与人工策略结果对比发现,保量策略在CTR方差和场景整体CTR方面均有不同程度的提升。特别地,在CTR方差方面,保量策略效果非常明显,平均相对提升+50%。
五 总结 & 展望
内容保量策略旨在解决流量资源有限与需求过多之间的矛盾,为各个内容提供一种优化的曝光量建议,从而使得各场景的曝光资源能够产生更大的价值。本文针对新热内容的多场景VV保量需求,提出了一种资源约束下的保量模型和算法框架,此框架整体由预测和优化两阶段构成。我们在部分场景进行了离线测试以及分桶实验,实验结果反映了本文策略的可行性和有效性。未来需要持续探索和完善的有很多方面,如PUV保量、保量冷启动问题等。
本文章已被KDD2020录用
Hang Lei, Yin Zhao, and Longjun Cai. 2020. Multi-objective Optimization for Guaranteed Delivery in Video Service Platform. In Proceedings of the 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD ’20), August 23–27, 2020, Virtual Event, CA, USA. ACM, New York, NY, USA, 9 pages. https://doi.org/10.1145/3394486.3403352
参考文献
[1]Xuerui Wang, Wei Li, Ying Cui, Ruofei Zhang, and Jianchang Mao. 2011. Click through rate estimation for rare events in online advertising. In Online multimedia advertising: Techniques and technologies. IGI Global, 1–12.