微信看一看推荐算法多目标帕累托最优

论文:Personalized Approximate Pareto-Efficient Recommendation
会议:ACM WWW '21: Proceedings of the Web Conference 2021 April 2021
视频:https://www.youtube.com/watch?v=RUYZXkQjjKc

Movation

  • 推荐系统的调优往往有多个目标,而且这些目标往往都是矛盾的,冲突的
  • 同时优化这些目标变得非常有挑战性


Pareto effciency

  • 帕累托最优:是最好的状态,所有的目标都达到最优了,没有一个目标能在不牺牲其他目标的情况下继续提升了
  • dominate:如图 A dominate C ,且 Bdominate C
  • 如果没有其他任何点可以dominate A了,那么称A 达到了帕累托最优

Limitation of existing Pareto methods

  • 在现实的MOR系统中(多目标推荐),个性化通常是item级别的。比如使用共享的多目标权重来应用到所有的用户和物品中


  • 但本文期望把一些个性化特征的优化带到 objective 级别

实现

提出PAPERec框架

  • 提出了一种新型的框架 Personalized Approximate Pareto-Effcient Recommendation。
  • 不同的用户可能会更关注不同的目标


  • 用户可以有个性化的 多目标权重
  • 构建了两个 single-objective models 针对两个目标做预估(CTR点击率和Dell Time用户时长)
  • 提出了一种 Pareto-oriented reinforcement learning modules,来学习个性化的目标权重,RL模型的reward主要是用于优化到帕累托最优
  • 用MGDA (Multiple gradient descent algorithm)证明收敛,满足KTT条件。如果一个Pareto-oriented RL满足Pareto effcient,也能满足Pareto stationarity,如果能够优化到梯度等于0或者达到最小值,也就找到了帕累托最优点


  • 建模
    (1)State:第t个状态代表,在已经推荐了t-1个项目之后,需要推荐第t个项目的状态,会考虑上下文信息
    (2)Action:给出一系列objective weights,在推荐列表的第t个位置
    (3)Reward:所有objective的梯度的权重和 的 L2-norm


  • 模型架构
    输入:用户信息、可能的行为、上下文、历史的目标权重
    输出:目前的目标权重
    算法:DDPG

左侧图像使用神经网络 objective model来预估目标值
个性化的目标权重训练,使用可扩展的方式训练


Experiment

  • dataset:真实世界集成的推荐数据集,从微信看一看里获取的,大概1.5B
  • 在离线和在线环境都做了实验,回答3个研究问题
    (1)提出的PAPERec算法怎么打败SOTA算法
    (2)PAPERec在线上系统中如何运作,处理多样的多目标和衡量指标?
    (3)个性化的目标权重学到了什么,能反映什么,是否合理?

实验显示新算法有明显提升

也做了在线的ABTest


做了一些分析,视频会有更高的DT权重


Contributions

  • 提出了一种新颖的PAPERec框架,应该是第一个提出在objective级别做个性化调优至帕累托前沿的推荐系统
  • 设计了一个新型的Pareto-oriented RL模块,来学习个性化的目标权重,可以通过直接最小化多目标梯度的L2-norm来达到 Pareto stationarity
  • 做了充分的离线和在线评估实验,来验证objective-level的个性化的重要行,和PAPERec算法在多目标推荐系统中的有效性。并且已经应用于微信看一看产品,影响了millions的用户

你可能感兴趣的:(微信看一看推荐算法多目标帕累托最优)