【数据应用技巧】阿里UC视频推荐优化

案例来源:@阿里技术

案例地址:https://mp.weixin.qq.com/s/lb5b-7ImTI0hlFwIBkpqxQ

 

0. 背景:

    视频优化目标

    1)感知相关性优化:CTR为目标

    2)真实相关性优化:停留时长RDTM/播放完成率PCR

    强调感知相关性(CTR)的情况下,会造成用户兴趣收窄、头部流量集中的问题。因此需要引入真实相关性,提高播放时长。

 

2. 时长多目标引入的方法:

    1)样本reweight(本文介绍方法)

    2)多模态学习(点击+时长)

    3)联合建模

 

3. 一期:停留时长reweight:

    1)思路:在加权lr中,对正样本根据停留时长进行加权,对负样本不做处理,从而根据停留时长影响正负样本的分布

    2)细节:

        a. label依旧是“是否点击“,保证CTR稳定的前提下,再去优化停留时长目标

        b. 停留时长加权方式上,考虑到视频有长短,采用多分段函数平滑观看时长和视频长短的关系

 

4. 二期优化:优化目标从停留时间修改为播放完成率

    1)原因:发现一期模型输出中,有一些播放完成率较高的短视频,CTR较低,模型打分靠后。但是播放完成率反映的是用户的真实兴趣(相对于点击),视频播放率上的提升有利于提高用户体验、打造短视频推荐的口碑

    2)方法:

        a. 优化目标从停留时长加权,修改为播放完成率加权

        b. 对视频时长分段,根据停留时长完成率进行分位数归一化,并进行威尔逊置信区间平滑(参考http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_wilson_score_interval.html),使得各视频时长段播放完成率相对可比,避免出现打分因视频长度严重倾斜情况

 

5. 评估方式:

    1)评估方式:

        a. AUC:根据是否点击进行评估,作为模型准入的条件

        b. AVG_RDTM(平均停留时长):在每个batch中选取模型得出的topK样本,取这些样本的平均停留时长作为AVG_RDTM

    2)一期+二期,AUC提升6%,在线人均停留时长提升10%

 

 

 

 

你可能感兴趣的:(数据产品案例)