机器学习28:《推荐系统-I》概述

在互联网领域,推荐系统(Recommendation Systems)的应用非常广泛。在音视频方面,如抖音、快手、哔哩等;在电商平台方面,如京东、淘宝、拼多多等。推荐有助于帮助用户快速发现潜在感兴趣的内容(音视频、商品、新闻等信息流),从而提升用户体验,同时有助于提升商业效率。 

从本文开始,笔者将结合自身在信息流推荐领域的经验,通过系列文章对推荐系统展开介绍。

目录

1.什么是推荐?

1.1 首页推荐

2.为什么推荐?

3.基本术语

3.1 Item

3.2 Query

3.3 Embedding

3.4 推荐场景中哪些数据可以采用 Embedding 来构造特征呢?

 3.4.1 User 数据

 3.4.2 Item 数据

 3.4.3 额外数据

 4.推荐系统架构 

4.1 候选 Item 池

4.2 打分

4.3 重排

5.候选 Item 池

5.1 嵌入空间

5.2 相似性计算

5.2.1 余弦

5.2.2 点积

5.2.3 欧氏距离

5.3 召回

6.参考文献


1.什么是推荐?

当你进入淘宝、京东等电商平台APP时,你可能会发现,展示的商品大都是自己感兴趣的。当你进入抖音、快手、哔哩等音视频APP时,你会发现很多音视频也是自己感兴趣的。不必惊讶,这其实就是推荐——更准确地说,是信息流推荐——即通过机器学习的推荐模型,从海量的商品、视频、新闻中寻找出用户潜在感兴趣的内容。 常用的推荐有两种:

  • 首页推荐——home page recommendations
  • 相关Item推荐——related item recommendations

注意:Item 一词直接翻译为“项目”并不合适,在信息流推荐领域,Item 指一条新闻、一则广告、一个商品、一首歌曲、一个权益等等。Item 可以理解为被一条被推荐的内容。

1.1 首页推荐

首页推荐是根据用户的已知兴趣向用户个性化推荐。每个用户都会看到不同的推荐——俗称“千人千面”。你可以尝试访问淘宝、京东等 APP,和身边的朋友对比一下,你会发现,你们看到的内容是不一样的。

顾名思义,相关 Item 推荐是指推荐与特定 Item 相似 Item。在 Google Play 应用程序示例中,查看数学应用程序页面的用户还可能会看到相关应用程序的面板,例如其他数学或科学应用程序。


2.为什么推荐?

推荐系统可以帮助用户在大型语料库中快速找到感性却的内容。例如,Google Play 商店提供数百万个应用程序,而 YouTube 提供数十亿个视频。每天都会新增更多应用程序和视频。用户如何找到新颖且感兴趣的内容呢?

一种朴素的观点,人们可以使用搜索来寻找、访问内容。然而,这并不高效,因为用户可能并不了解自己对哪些内容感兴趣,即便知道,也可能不清楚使用哪些关键词来搜索。相较之下,推荐引擎可以为用户推荐一些用户自身 “未曾想到但感兴趣” 的 Item。

你可知道?

  • Google Play 上 40% 的应用安装来自推荐。
  • YouTube 上 60% 的观看时间来自推荐。


3.基本术语

为了便于理解后面的系列文章,我们先 “统一语言”——即定义一些术语,基于这些术语交流,可以减少歧义:

3.1 Item

直译为:项目,内涵为系统推荐的实体(如视频、商品、新闻、酒店等等),也称为项目,在不同场景下,Item 的内涵也有差异。对于 Google Play 商店,Item 是要安装的应用程序;对于 YouTube,Item 是视频。

3.2 Query

也称为上下文-Context,推荐系统需要根据 Query 来计算并返回建议(推荐)的 Item。Query 可以是以下各项的组合:

  • 用户信息
    • 用户的 ID
    • 用户之前交互过的 Item
    • 用户的地理位置、年龄、学历、收入等
  • 补充信息(也称为额外信息)
    • 一天中的时间
    • 用户的设备类型和 ID

3.3 Embedding

即嵌入,在《机器学习20:嵌入-Embeddings》一文中有详细的介绍。嵌入是指从离散集(在本例中为 Query 集或要推荐的 Item 集)到称为嵌入空间的向量空间的映射。许多推荐系统依赖于学习 Query 和 Item 的适当嵌入表示—— Query 和 Item 的合适嵌入,将有助于推荐。

在提到 Embedding 时,首先想到的是“向量化”,主要作用是将 高维稀疏向量 转化为 低维稠密向量,从而方便下游模型处理。换一种说法,Embedding 是用一个 低维稠密向量 来表示一个对象,使得这个向量能够表达相应对象的某些特征,同时向量之间的距离能反映对象之间的相似性。

还有一种定义:Embedding 是将一个实例(instance)从复杂的空间嵌入(投射)到相对简单的空间,以便对原始实例进行理解,或者在相对简单的空间中进行后续操作。

3.4 推荐场景中哪些数据可以采用 Embedding 来构造特征呢?

下面简单列了笔者在 游戏和信息流推荐 时主要采用 Embedding 技术来处理的数据。

 3.4.1 User 数据

典型如:用户的基础属性数据,如性别、年龄、关系链、兴趣偏好等。

  • 对于用户兴趣偏好,一般简单地采用文本 Embedding 方法来得到各标签的 Embedding 向量,然后根据用户对这个标签的偏好程度做向量加权;
  • 对于关系链数据(如同玩好友、游戏中心相互关注等),构造用户关系图,然后采用基于图的 embedding 方法来得到用户的 Embedding 向量;

 3.4.2 Item 数据

Item 基本信息数据,如标题、作者、游戏简介、标签等。

  •  对于文本、简介和标签等可以采用基于文本的 Embedding 方法来在已有语料上预训练模型,然后得到对应的 Embedding 向量(如 word2vec 或者 BERT);
  • 此外对于有明确关系的(如 item->文本->标签 or 关键词)可以采用对关键词/标签的向量均值来表示 item 的文本向量;

  • 针对用户对 Item 的操作(如点击、互动、下载)构造:用户->item+Item 标签体系,构造用户-item-tag 的异构网络,然后可以采用 Metapath2vec 来得到各节点的 Embedding 向量;

  • 通过记录用户在整个场景访问 item,构造 Item-Item 关系图,然后采用 DeepWalk 算法得到 item 的向量,用来挖掘 Item 间的关系特征;

 3.4.3 额外数据

外部扩充数据,如用户游戏行为、用户微信其他场景活跃等。

  • 标签型,主要是用户在各场景的兴趣偏好;
  •  关系链型(如游戏中心好友、游戏内好友、开黑好友)可以采用用户关系构造用户关系图,采用 Graph Embedding 方法(如 GraphSAGE)来表示用户抽象特征。 


 4.推荐系统架构 

推荐系统的常见架构如下图所示,包括四个组件(复杂的推荐系统包括召回、粗排、精排、重排,会更加复杂)。

  • 物料库:包括所有 Item 和 User 的特征数据
  • 召回:即采用简单模型从海量物料库中选择部分用户可能感兴趣的 Item
  • 精排:即通过复杂模型对 Item 进行打分,进而排序
  • 重排:给用户推荐的 Item 也不能完全是用户潜在感兴趣的,需要考虑多样性、时效性等

机器学习28:《推荐系统-I》概述_第1张图片

4.1 候选 Item 池

在第一阶段,系统从一个潜在的巨大物料库开始,通过【召回】生成一个小得多的候选子集​​。例如,YouTube 中的候选生成器将数十亿个视频减少到数百或数千个。鉴于语料库规模巨大,该模型需要快速评估查询。给定的模型可以提供多个候选生成器,每个生成器指定不同的候选子集​​。

4.2 打分

在复杂的推荐系统中,打分通常包括两个部分:【粗排打分】+【精排打分】。本质上都是通过模型对候选 Item 进行评分和排序,以便选择要向用户展示的 Item 集(信息流推荐大多数是分页的,每页大约 10 个,因此每次打分后,取 TOP N 即可)。由于该模型评估相对较小的 Item 子集,因此系统可以使用依赖于附加查询的更精确的模型。

4.3 重排

最后,系统必须考虑最终排名的附加约束。例如,系统删除用户明确不喜欢的项目或提高较新鲜内容的分数。重新排名还有助于确保多样性、新鲜度和公平性。


5.候选 Item 池

如何获取候选 Item 池呢?作为推荐的第一阶段,本质是一个【召回】过程。给定一个 Query,系统会生成一组相关的候选 Item。如下表所示,为两种常见的候选池生成方法。

类型 定义 例子
基于内容的过滤 利用 Item 之间的相似性,来推荐与用户喜欢的 Item 相似的 Item 如果用户 A 观看了两个可爱的猫咪视频,那么系统可以向该用户推荐可爱的动物视频。
协同过滤 同时使用 Query 和 Item 之间的相似性来提供建议。 如果用户A与用户B相似,并且用户B喜欢视频1,则系统可以向用户A推荐视频1(即使用户A没有看过任何与视频1类似的视频)。

5.1 嵌入空间

基于内容的过滤和协作过滤都将每个 Item 和每个 Query(或上下文)映射到公共嵌入空间中的嵌入向量 E = \mathbb R^d。通常,嵌入空间是低维的(即 d 比物料库的大小小得多),并捕获 Item 或 Query 集的一些潜在结构。类似的 Item(例如由同一用户观看的 YouTube 视频)最终会在嵌入空间中紧密结合在一起。“接近度” 的概念是通过相似性度量来定义的。

额外资源: projector.tensorflow.org是一个用于可视化嵌入的交互式工具。

5.2 相似性计算

相似性度量是一个函数 s : E \times E \to \mathbb R 它接受一对嵌入并返回一个测量它们相似度的标量。嵌入可用于候选池生成(即召回,也称为【向量召回】)。如下所示:给定查询嵌入:q \in E,系统寻找那些接近于 q 的 Item 的嵌入 x \in E ,即相似度高的嵌入 s(q, x)

为了计算相似度,大多数推荐系统依赖于以下一项或多项:

  • 余弦
  • 点积
  • 欧氏距离

5.2.1 余弦

即计算两个向量之间角度的余弦,s(q, x) = \cos(q, x),两个向量越接近,余弦值越大,夹角为 90 度(垂直),则结果为 0,即可认为相似度最低。

5.2.2 点积

两个向量的点积为 s(q, x) = \langle q, x \rangle = \sum_{i = 1}^d q_i x_i。也可用 s(q, x) = \|x\| \|q\| \cos(q, x)(角度的余弦乘以范数的乘积)。因此,如果嵌入被规范化(归一化),则点积和余弦重合。

5.2.3 欧氏距离

欧几里得空间中的距离。距离越小意味着相似度越高。请注意,当嵌入规范化(归一化)时,平方欧几里德距离与点积(和余弦)一致,直到达到一个常数,因为在这种情况下。s(q, x) = \|q - x\| = \left[ \sum_{i = 1}^d (q_i - x_i)^2\right]^{\frac{1}{2}}

5.3 召回

基于 Embedding 和相似度计算,我们就可以从海量的物料库中寻找到那些用户可能感兴趣的 Item,即基于相似度计算结果取出 TOP N。这一过程,在很多推荐场景中被称为【召回】。

6.参考文献

1-https://developers.google.cn/machine-learning/recommendation/overview

2-https://www.163.com/dy/article/FROC0ILQ0518R7MO.html

你可能感兴趣的:(机器学习,推荐系统,机器学习,人工智能,推荐系统,推荐算法,Recommendation)