推荐系统学习

技术架构包括:

  1. 数据部分
    数据的产生和基础处理: 客户端、服务端实时数据(秒级延迟)--》流处理平台spark等(分钟延迟)---》大数据平台(小时级延迟)离线数据处理

流计算平台数据的使用:

  1. 实时更新特征,供模型使用
  2. 实时产出模型效果,abtest

批数据处理使用:

  1. 生成训练样本、离线训练

  2. 效果监控、评估

  3. 模型部分
    召回层--排序层---补充策略层(多样性、冷启动、新鲜度等)
    效果的评估: 离线评估、线上AB测试

作为策略同学,在实践推荐系统中需要考虑哪些问题?

  1. 使用哪些特征? 特征如何进行预处理?
  2. 如何做召回? 召回的衡量指标?
  3. 如何做推荐? 推荐的衡量指标?
  4. 实时性
  5. 优化目标
  6. 如何基于用户动机改进模型结构?

推荐系统的特征工程:

特征分类包括:

  1. 用户行为数据
    显性反馈行为: 评分 赞踩等
    隐性反馈行为: 点击 播放 收藏
  2. 用户关系数据
  3. 属性、标签类: 针对用户的用户画像; 针对物料的内容理解
  4. 上下文信息: 推荐行为发生的场景的信息
  5. 统计类特征:ctr cvr等

特征处理方法:

  1. 连续特征: 归一化、离散化(防止过拟合)
  2. 类别型特征: one-hot, multi-hot---特征过于稀疏;embedding

如何做召回

  1. 多路召回
  2. 基于embedding的召回方法

推荐系统的实时性

特征的实时性|| 模型的实时性

模型的实时性:
三种方式: 全量更新、增量更新、在线学习

优化目标

youtube推荐模型: 观看时常
alibaba推荐模型: ctr结合cvr,多目标:ESMM

根据用户动机选择合适的模型

  1. 阿里巴巴的eien模型:
    用户的兴趣进化--》GRU序列模型
  2. netflix:
    明星粉丝---》影片预览图个性化模型
  3. roku
    页面交互---信息挖掘

你可能感兴趣的:(推荐系统学习)