内容流量管理的关键技术:多任务保量优化算法实践

内容流量管理的关键技术:多任务保量优化算法实践_第1张图片

作者 | 阿里文娱高级算法工程师 雷航
责编 | 李雪敬
头图 | CSDN下载自视觉中国

本文章已被KDD2020录用:

Hang Lei, Yin Zhao, and LongjunCai. 2020. Multi-objective Optimization for Guaranteed Delivery in VideoService Platform. In Proceedings of the 26th ACM SIGKDD Conference on KnowledgeDiscovery and Data Mining (KDD ’20), August 23–27, 2020, Virtual Event, CA,USA. ACM, New York, NY, USA, 9 pages. https://doi.org/10.1145/3394486.3403352

 

业务背景

保量策略对于视频内容来说,是一种很重要的投放策略。新热视频内容都需要增加自身的曝光资源来达到播放量最大化,而各场景(首页、频道页等)的总体资源有限且每个抽屉坑位的日曝光资源有限,因此各内容的曝光资源分配存在竞争问题。另外,不同场景之间相互独立,每个场景根据自身的目标进行效率和体验上的优化,但是场景与场景之间流量协同无法通过优化单一场景来完成。

内容流量管理的关键技术:多任务保量优化算法实践_第2张图片

图1 剧集频道页和首页

为内容分配曝光量涉及到关于曝光和点击建模问题,以及内容的未来点击量预测问题。内容曝光、点击和播放等构成了一个复杂的非线性混沌系统,不仅取决于内容质量本身,也取决于内容更新时间、更新策略和用户点击习惯等。传统的统计预测模型无法阐述外部环境的各种干扰因素以及系统的混沌特性,即无法从机理上描述系统本质。针对此问题,我们首先通过分析新热内容的历史曝光点击日志,使用常微分方程建立了新热内容曝光敏感模型,即 pv-click-ctr 模型(简称 P2C 模型)。在 P2C 模型基础上,结合各场景和抽屉的曝光资源约束,给出一种曝光资源约束下的多目标优化保量框架与算法。

内容流量管理的关键技术:多任务保量优化算法实践_第3张图片

图2 保量策略框架

内容曝光敏感度模型

通常情况下,点击 PV(click)随曝光 PV 增大而增大,即高曝光带来高点击。但是,内容消费者数量有限,给同一个消费者针对单一内容重复曝光并不会带来更多的点击量。这种点击“饱和”现象可从内容的历史曝光点击日志观察得到。受此现象启发,我们根据内容曝光 PV 和点击 PV 历史数据特点,建立一种能够描述内容点击量随曝光量变化趋势的常微分方程(Ordinary Differential Equation, ODE)模型,即 pv-click-ctr (P2C) 模型,整体结构如图3所示。

内容流量管理的关键技术:多任务保量优化算法实践_第4张图片

图3 P2C 模型整体架构图

一个内容由于自身因素和外部环境的限制,对应的点击量存在最大值或饱和值 ym。当给定一个曝光量 x 时,存在唯一的点击量 y 和饱和度 k。对于一个点击量 y,饱和度 k 定义为当前点击量和饱和值的差距与饱和值的比值,即

对于任意一个内容,随着 pv 的增大,click 饱和度减小,且单位 pv 带来的 click 增量(简称 click 增量)与当前 click 比值呈下降趋势。也就是说,click 增量与饱和度存在正相关关系,可用下式表示。

其中,r 为正相关系数。根据式(2),可以得到 click 随 pv 增长的常微分方程模型。

对式(3)分离变量后两端进行积分,可以得到

其中,x0y0分别为初始 pv 和 click。

对于式子 (4) 中的参数 r 和ym,可采用最小二乘法拟合。这里首先需要对历史 pv 和 click 数据以及参数进行过滤和预处理。

(a)样本点过滤原则。分别在日历史 pv 和 click 数据序列选取最大递增子序列;

(b)参数预处理。由于点击量饱和值ym的数量级通常很大,而相关系数 r 数量级通常很小,为了避免“大数吃小数”的现象,分别对这两个参数进行数据变换,即:ym ®log10(ym),r ® er

(c)样本点预处理。为了避免最小二乘法在拟合参数时陷入局部最优,分别对历史样本(click 值 y,pv 值 x)进行数据变换,即:x ®log10(x),y ®log10(y)。经过参数拟合过程,可得到单一内容 pv-click 函数关系。进而可进行 pv-click-ctr 预测,这里可采用有限差分的数值解法预测,也可将数据点代入式子(4)预测。


保量模型&算法

基于上一节建立的 P2C 模型,本节任务是在各场景和抽屉曝光资源有限的情况下,给出每个内容近似最优的曝光量。整体方案流程如下图:

内容流量管理的关键技术:多任务保量优化算法实践_第5张图片

图4 保量模型整体架构图

第一,基于 pv-click-ctr 预测的常微分方程(ODE) 模型,针对内容池中每个内容,采用最小二乘拟合 ODE 中的两个参数:click 饱和值ym和 click 随 pv 的固有增长率 r。从而给出每个内容 pv-click 函数关系;

第二,基于给定的优化目标和约束条件,可建立 pv 分配的多目标非线性优化模型。在将业务问题抽象为数学模型之前,有必要对模型中的符号进行说明,如下所示:

变量

说明

xijk

内容i在抽屉j中的坑位k分配到的pv量

R

所有抽屉的pv总量

rij

内容i在抽屉j中click与vv的正相关系数

C(Sj)

抽屉j对应的总曝光pv

f(·)

P2C模型预测函数

表1: 保量模型符号说明

内容流量管理的关键技术:多任务保量优化算法实践_第6张图片

上述模型的优化目标包含两个:多场景 vv 最大化,内容池内容 ctr 方差最小。需要注意的是,这里的 ctr 方差最小是曝光公平的一种形式化描述,用以平衡“过曝光”和“欠曝光”。约束条件分别表示了场景、抽屉、坑位和内容的曝光 PV 约束。由于目标函数我们采用数值方法求解,使得上述优化模型无法运用传统的基于梯度的算法求解。而进化算法提供了一种解决方案,这里选取遗传算法(GA)求解。需要说明的是,GA 中的适应值函数计算采用了 P2C 模型。

实验结果

我们选取多个新热内容,分别给出 P2C 模型的预测效果以及保量模型的离线效果。这里的评估指标是均方根误差 (RMSE) 和绝对误差百分比(APE)。分别采用 P2C 模型和平滑 ctr 方法*预测新热内容的点击量。从表中可以看出 P2C 模型可以有效预测点击量,在 RMSE 方面优于平滑 ctr 方法。

* Xuerui Wang, Wei Li, Ying Cui, Ruofei Zhang, and Jianchang Mao. 2011.Click through rate estimation for rare events in online advertising. In Onlinemultimedia advertising: Techniques and technologies. IGI Global, 1–12.

内容流量管理的关键技术:多任务保量优化算法实践_第7张图片

内容流量管理的关键技术:多任务保量优化算法实践_第8张图片

线上实验部分,我们建立了分桶实验。基准桶采用人工策略保量;实验桶采用本文提出的策略,实验过程中关注和对比基准桶和实验桶每日投放效果(CTR方差、策略在场景上的整体CTR等)。以下给出30天和7周的保量效果数据,与人工策略结果对比发现,保量策略在 CTR 方差和场景整体 CTR 方面均有不同程度的提升。特别地,在 CTR 方差方面,保量策略效果非常明显,平均相对提升+50%。

内容流量管理的关键技术:多任务保量优化算法实践_第9张图片

内容流量管理的关键技术:多任务保量优化算法实践_第10张图片

总结&展望

内容保量策略旨在解决流量资源有限与需求过多之间的矛盾,为各内容提供一种优化的曝光量建议,使得各场景的曝光资源能够产生更大价值。本文针对新热内容的多场景VV保量需求,提出了一种资源约束下的保量模型和算法框架,此框架整体由预测和优化两阶段构成。我们在部分场景进行了离线测试及分桶实验,实验结果反映了本文策略的可行性和有效性。未来需要持续探索和完善的有很多方面,如 PUV 保量、保量冷启动问题等。


更多精彩推荐
☞Java 二十五载,正在 Kotlin 化!
☞国产芯回忆录:造光刻的去卖早点,搞 EDA 的去组装电脑
☞连按 5 次 Shift 重改 CMD 和密码并重启电脑,这个漏洞你不能不知道!
☞维度爆炸?Python实现数据压缩如此简单
☞征战云时代,为什么安全是关键命题?
☞出海、拆分、集成公链,“国家队区块链选手”BSN在下一盘怎样的棋?
点分享点点赞点在看

你可能感兴趣的:(算法,人工智能,机器学习,深度学习,推荐系统)