案例来源:@阿里技术
案例地址:https://mp.weixin.qq.com/s/lb5b-7ImTI0hlFwIBkpqxQ
0. 背景:
视频优化目标
1)感知相关性优化:CTR为目标
2)真实相关性优化:停留时长RDTM/播放完成率PCR
强调感知相关性(CTR)的情况下,会造成用户兴趣收窄、头部流量集中的问题。因此需要引入真实相关性,提高播放时长。
2. 时长多目标引入的方法:
1)样本reweight(本文介绍方法)
2)多模态学习(点击+时长)
3)联合建模
3. 一期:停留时长reweight:
1)思路:在加权lr中,对正样本根据停留时长进行加权,对负样本不做处理,从而根据停留时长影响正负样本的分布
2)细节:
a. label依旧是“是否点击“,保证CTR稳定的前提下,再去优化停留时长目标
b. 停留时长加权方式上,考虑到视频有长短,采用多分段函数平滑观看时长和视频长短的关系
4. 二期优化:优化目标从停留时间修改为播放完成率
1)原因:发现一期模型输出中,有一些播放完成率较高的短视频,CTR较低,模型打分靠后。但是播放完成率反映的是用户的真实兴趣(相对于点击),视频播放率上的提升有利于提高用户体验、打造短视频推荐的口碑
2)方法:
a. 优化目标从停留时长加权,修改为播放完成率加权
b. 对视频时长分段,根据停留时长完成率进行分位数归一化,并进行威尔逊置信区间平滑(参考http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_wilson_score_interval.html),使得各视频时长段播放完成率相对可比,避免出现打分因视频长度严重倾斜情况
5. 评估方式:
1)评估方式:
a. AUC:根据是否点击进行评估,作为模型准入的条件
b. AVG_RDTM(平均停留时长):在每个batch中选取模型得出的topK样本,取这些样本的平均停留时长作为AVG_RDTM
2)一期+二期,AUC提升6%,在线人均停留时长提升10%