论文笔记之Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

文中指出淘宝推荐系统面临的三大挑战：规模、稀疏性、冷启动。
本文提出的方法首先从用户的行为历史中构建物品关系图，然后学习图中所有物品的embedding。通过物品embedding可以计算所有物品的两两相似度，然后将相似度用于推荐过程中。为了能够缓解稀疏性和冷启动问题，side information也被考虑进来。
淘宝设计了一个two-stage的推荐框架，两个阶段分别是matching和ranking。
在matching阶段，为用户交互过的每个物品生成相似物品候选集。
在ranking阶段，训练一个深度神经网络模型，根据用户的偏好对候选集中的物品进行排序。

本文主要focus在matching阶段遇到问题的处理上，matching阶段的核心目标是基于用户的行为，计算物品之间的两两相似度。
本文提出根据用户的行为历史，构建物品图(item graph)，然后使用graph embedding方法来学习每个物品的embedding，这种方式被称为Base Graph Embedding(BGE)。然后可以通过物品embedding向量的点积来衡量物品的相似度。
对于那些交互很少甚至没有交互的物品，很难准确学习它们的embedding。为了缓解这一问题，本文在embedding过程中利用了side information，称为Graph Embedding with Side information(GES)。比如说，同一种类或者品牌的物品在embedding上是接近的。
然而在淘宝，有着非常多的side information，比如种类、品牌、价格等。不同的side information在学习物品embedding的过程中起到的贡献是不同的。因此，本文提出了一种带权机制来学习embedding with side information，被称为Enhanced Graph Embedding with Side information(EGES)。

Construction of Item Graph from Users’ Behaviors

用户在淘宝上的行为可以用序列来表示，如下图，用户u1只有一个session，而用户u2和u3各有两个session。

文中指出以前的基于CF的方法只考虑了items的共现，忽视了序列信息，而序列信息可以更加准确的反应用户偏好。
然而，利用用户的所有历史信息是不现实的，因为1)计算复杂度和空间复杂度非常高.2)一个用户的兴趣会随着时间而慢慢改变。
因此，在实际操作过程中，会设置一个time window，并且只选择window中的用户行为。这被称为session-based users' behaviors。在经验上，time window的持续时间被设置为1个小时。
获得session-based users' behaviors后，两个item如果连续的出现，则用一条有向边把它们连起来。
前面的item序列可以转为下图中的带权有向图。

通过所有user的历史行为，即可获得整个item graph(边出现1次权重为1，以此类推)。
在实际情况中，需要过滤一些反常行为来排除噪声。比如说：
•一次点击后在页面停留的时间少于1秒。
•一些过度活跃的用户。当一个用户在小于三个月的时间内购买了1000个物品或点击量超过3500，则过滤掉这些用户的行为。
•remove the item related to the identifier。

Base Graph Embedding

在item的带权有向图上执行deepwalk(带权随机游走)，用负采样优化，即可获得item的embedding。随机游走的权重如下，

Graph Embedding with Side Information

base graph embedding方法不能很好的处理冷启动问题，即与用户没有交互的物品。于是，提出了GES(Graph Embedding with Side Information)。
side information指的是种类、店铺、价格等信息，这些信息常用来ranking，但很少用在graph embedding中。GES中，认为两个物品如果有相似的side information(比如说同属一个种类，同属一个品牌)，则应该是相似的。

上图中SI 0表示item本身，SI 1...SI n表示side information，这些通常都是one-hot的。
将item v的n+1个embedding向量concatenate起来，在hidden层做一个average-pooling，即

那么Hv就是item v整合后的embedding。通过这种方式整个了side information，那么有相似的side information的item在embedding上也会更相似。

Enhanced Graph Embedding with Side Information

然而GES假设了所有的side information的贡献是一样的，在实际情况中，往往不是这样的。为了解决这一问题，提出了EGES来整合不同类型的side information。

使用e的指数形式是为了保证每个side information的贡献大于0。分母起到了normalize的作用。
目标函数如下，需要注意的是Zu指的是节点u的输出向量(作为相邻节点时的向量)。y表示负采样时的label。

Hv即为节点v的最终embedding向量。
总的来说，EGES比普通的skip-gram在模型上多了一层hidden representation层和side information。

Cold Start Items

冷启动物品的embedding没有办法通过item graph来学习，因此可以用side information的embedding求平均作为该物品的embedding。