(13)工业界推荐系统-小红书推荐场景及内部实践【用户行为序列建模】

(1)工业界推荐系统-小红书推荐场景及内部实践【业务指标、链路、ItemCF】
(2)工业界推荐系统-小红书推荐场景及内部实践【UserCF、离线特征处理】
(3)工业界推荐系统-小红书推荐场景及内部实践【矩阵补充、双塔模型】
(4)工业界推荐系统-小红书推荐场景及内部实践【正负样本选择】
(5)工业界推荐系统-小红书推荐场景及内部实践【线上召回和模型更新】
(6)工业界推荐系统-小红书推荐场景及内部实践【其他召回通道】
(7)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题1】
(8)工业界推荐系统-小红书推荐场景及内部实践【冷启动问题2】
(9)工业界推荐系统-小红书推荐场景及内部实践【排序模型】
(10)工业界推荐系统-小红书推荐场景及内部实践【排序模型的特征】
(11)工业界推荐系统-小红书推荐场景及内部实践【粗排三塔模型】
(12)工业界推荐系统-小红书推荐场景及内部实践【交叉结构】

LastN特征

  • LastN:用户最近的 次交互(点击、点赞等)的物品ID。
  • 对 LastN 物品 ID 做 embedding,得到 个向量。
  • 把 个向量取平均,作为用户的一种特征。
  • 适用于召回双塔模型、粗排三塔模型、精排模型。
    (13)工业界推荐系统-小红书推荐场景及内部实践【用户行为序列建模】_第1张图片

Deep Neural Networks for YouTube Recommendations

DIN模型

  • DIN 用加权平均代替平均,即注意力机制 (attention)。
  • 权重:候选物品与用户 LastN 物品的相似度。
    (13)工业界推荐系统-小红书推荐场景及内部实践【用户行为序列建模】_第2张图片
  • 对于某候选物品,计算它与用户 LastN 物品的相似度。
  • 以相似度为权重,求用户 LastN 物品向量的加权和,结果是一个向量。
  • 把得到的向量作为一种用户特征,输入排序模型,预估(用户,候选物品)的点击率、点赞率等指标。
  • 本质是注意力机制(attention)。
    (13)工业界推荐系统-小红书推荐场景及内部实践【用户行为序列建模】_第3张图片
    (13)工业界推荐系统-小红书推荐场景及内部实践【用户行为序列建模】_第4张图片
    (13)工业界推荐系统-小红书推荐场景及内部实践【用户行为序列建模】_第5张图片

Deep interest network for click-through rate prediction

SIM模型

Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction

DIN模型的缺点

  • 注意力层的计算量 ∝ (用户行为序列的长度)。
  • 只能记录最近几百个物品,否则计算量太大。
  • 缺点:关注短期兴趣,遗忘长期兴趣。

如何改进DIN?

  • 目标:保留用户长期行为序列( 很大),而且计算量不会过大。
  • 改进 DIN:
    • DIN 对 LastN 向量做加权平均,权重是相似度。
    • 如果某 LastN 物品与候选物品差异很大,则权重接近零。
    • 快速排除掉与候选物品无关的 LastN 物品,降低注意力 层的计算量。

SIM

  • 保留用户长期行为记录, 的大小可以是几千。
  • 对于每个候选物品,在用户 LastN 记录中做快速查找,找到 个相似物品。
  • 把 LastN 变成 TopK,然后输入到注意力层。
  • SIM 模型减小计算量(从 降到 )。

第一步 查找

  • 方法一:Hard Search
    • 根据候选物品的类目,保留 LastN 物品中类目相同的。
    • 简单,快速,无需训练。
  • 方法二:Soft Search
    • 把物品做 embedding,变成向量。
    • 把候选物品向量作为query,做 近邻查找,保留 LastN 物品中最接近的 个。
    • 效果更好,编程实现更复杂。

第二步 注意力机制

使用时间信息

  • 用户与某个 LastN 物品的交互时刻距今为 。
  • 对 做离散化,再做 embedding,变成向量 。
  • 把两个向量做 concatenation,表征一个 LastN 物品。
    • 向量 是物品 embedding 。
    • 向量 是时间的 embedding。
      (13)工业界推荐系统-小红书推荐场景及内部实践【用户行为序列建模】_第6张图片

为什么 SIM 使用时间信息?

  • DIN 的序列短,记录用户近期行为。
  • SIM 的序列长,记录用户长期行为。
  • 时间越久远,重要性越低。

你可能感兴趣的:(推荐系统,深度学习,人工智能,深度学习)