论文解读:跨域推荐模型MiNet

论文下载
代码下载

论文解读:跨域推荐模型MiNet

  • 一、跨域推荐基础概念
    • 1.1、什么是跨域推荐
    • 1.2、跨域推荐的优劣
      • 优势
      • 劣势
  • 二、背景
  • 三、模型设计
    • 3.1、3种类型用户兴趣
      • 跨域长期兴趣(long-term interest across domains)
      • 源域短期兴趣(short-term interest from the source domain)
      • 目标域短期兴趣( short-term interest in the target domain)
    • 3.2、3种兴趣建模面临的挑战
    • 3.3、网络结构
    • 3.4、兴趣建模
      • 3.4.1、跨域长期兴趣建模
      • 3.4.2、源域短期兴趣建模
      • 3.4.3、目标域短期兴趣建模
    • 3.5、Interest-Level Attention
      • 3.5.1、item-level attention
      • 3.5.2、interest-level attention
    • 3.6、辅助任务
    • 3.7、损失函数
  • 四、实验
    • 4.1、算法模型对比实验
    • 4.2、消融实验:注意力的影响
    • 4.3、消融实验:注意力权重
    • 4.4、消融实验:不同类型的用户兴趣建模效果


一、跨域推荐基础概念

1.1、什么是跨域推荐

“域"指的是通过某种方式聚集在一起的集合,“域"的定义可大可小。只要是两个不一样的集合之间互相使用数据都可以称之为"跨域”。
常见的推荐场景都是单域推荐比较多,也就是"游戏"只推荐"游戏"类的东西,它基于的数据也都是游戏用户本身的东西。跨域推荐首先要定义两个"域"的概念:“源域"和"目标域”,我们要优化、提升的目标叫做"目标域”,而"源域"相当于是辅助的部分。比如在信息流推荐系统中,我们把广告作为目标域,feed信息流作为源域,跨域推荐的最大优势在于通过使用跨域数据,目标域中的数据稀疏和冷启动问题都能得到缓解,这也是为什么能提高推荐性能的原因。
跨域推荐有一个前提,就是基于重叠 ( overlap )。比如有一部分的特征、用户、物品的重叠,通过重叠的部分找到两个域之间的一些关联。

1.2、跨域推荐的优劣

优势

  1. 解决冷启动的问题,比如目标域的新用户很可能是源域的旧用户,那么将源域的信息拿过来辅助提升推荐的效果,能一定程度上解决冷启动;
  2. 提升目标域的推荐效果,这个也是跨域推荐的主要目的;
  3. 推荐多样性。因为跨域推荐同时参考了多个域的特征,自然而然会对推荐结果的多样性进行一定的优化。最终,它还会反作用于源域,能够实现源域的推荐与目标的域推荐效果的共同提升。

劣势

跨域必然会导致数据的稀疏,处理不当会有反作用。

二、背景

点击率 (CTR) 预测是在线广告系统中的一项关键任务。现有工作主要解决单域 CTR 预测问题和模型方面,如特征交互、用户行为历史和上下文信息。然而,广告通常以自然内容展示,这为跨域 CTR 预测提供了机会。本论文解决了这个问题,并利用来自源域的辅助数据来提高目标域的 CTR 预测性能。本论文的研究基于 UC 浏览器应用场景,其中源域是新闻feed流,目标域是广告。为了有效地利用新闻数据来预测广告的点击率,论文提出了混合兴趣网络(MiNet),联合建模三种类型的用户兴趣:
1)跨域的长期兴趣(long-term interest across domains);
2)源域短期兴趣(short-term interest from the source domain);
3)目标域短期兴趣( short-term interest in the target domain)。
MiNet 包含两个级别的注意力,其中item-level attention可以自适应地从点击的新闻/广告中提取有用信息, interest-level attention可以自适应地融合不同的兴趣表示。

三、模型设计

3.1、3种类型用户兴趣

跨域长期兴趣(long-term interest across domains)

每个用户都有个人资料特征,例如用户 ID、年龄组、性别和城市。 个人资料特征反映了用户的长期内在兴趣。 基于跨域数据(即用户与之交互的所有新闻和广告),能够学习语义更丰富、统计上更可靠的用户特征embedding。

源域短期兴趣(short-term interest from the source domain)

对于每个要预测CTR的目标广告,在源域中都有对应的短期用户行为(例如,用户刚刚浏览的新闻)。 虽然一条新闻的内容可能与目标广告的内容完全不同,但它们之间可能存在一定的相关性。 例如,用户在查看了一些娱乐新闻后,很可能会点击游戏广告。 基于这种关系,可以将有用的知识从源域迁移到目标域。

目标域短期兴趣( short-term interest in the target domain)

对于每个目标广告,在目标域中也有相应的短期用户行为。用户最近点击了哪些广告可能对用户在不久的将来可能点击哪些广告有很大的影响。

3.2、3种兴趣建模面临的挑战

  1. 不是所有交互过的新闻都和目标广告有关系;
  2. 不是所有交互过的广告都和目标广告有关系;
  3. 模型必须能把信息从源域迁移到目标域;
  4. 对于每个目标广告,三种用户兴趣的重要性是不一样的;
  5. 用户兴趣向量的维度可能不一样,维度差异可能会自然地增强或削弱某些表示的影响。
    论文解读:跨域推荐模型MiNet_第1张图片

3.3、网络结构

论文提出了混合兴趣网络MiNet,结构如下:
论文解读:跨域推荐模型MiNet_第2张图片

3.4、兴趣建模

3.4.1、跨域长期兴趣建模

通过用户的基本属性信息来表示⽤户内在的⻓期兴趣,⽐如20岁左右的男性⽤户可能对体育赛事或者游戏类的资讯或者⼴告⽐较感兴趣。主要做法是将⽤户ID、⽤户性别、⽤户所在地域、⽤户的⼿机设备等embedding向量进⾏拼接,输出为pu。例如⽤户ID为123,城市为北京,男性⽤户,使⽤苹果⼿机,得到的⻓期兴趣表示为:
在这里插入图片描述
“||”是向量连接操作。

3.4.2、源域短期兴趣建模

给定一个用户,在每个待预估广告展示之前,用户通常都会与源域的新闻有交互记录。用户交互过得新闻的内容与待预估广告之间有关联关系,则建模用户在源域中的兴趣是很有意义的。在对序列数据进行建模时,文中的item-level attention的方法如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
其中,rsi是⽤户点击的第i个新闻的embedding,qt代表⽬标⼴告,pu代表⽤户的⻓期兴趣向量,M代表transfer矩阵,将source domain的向量空间映射到target domain的向量空间。Mrsi = rsi*M。

3.4.3、目标域短期兴趣建模

主要是对⽤户浏览过的⼴告结果进⾏建模,抽取⽤户在target domain中的兴趣,建模⽅式同在源域相同,只不过不需要对向量进⾏映射
论文解读:跨域推荐模型MiNet_第3张图片

3.5、Interest-Level Attention

3.5.1、item-level attention

item-level attention的提出是解决挑战1(不是所有交互过的新闻都和目标广告有关系)和挑战2(不是所有交互过的广告都和目标广告有关系)。
transfer矩阵用来解决的是挑战3(模型必须能把信息从源域迁移到目标域)。

3.5.2、interest-level attention

interest-level attention的提出要解决的是挑战4(对于每个目标广告,三种用户兴趣的重要性是不一样的)和挑战5(用户兴趣向量的维度可能不一样,维度差异可能会自然地增强或削弱某些表示的影响):对于每个目标广告,三种用户兴趣的重要性是不一样的。如果⽬标⼴告和⽤户最近点击的⼴告相似,那么⽤户在⽬标域的短期兴趣则会起到更重要的作⽤,如果⽬标⼴告和⽤户点击过的⾃然结果和⼴告都不相似,则⻓期兴趣则会起到更重要的作⽤。具有适当激活函数的兴趣级别注意力也可以处理维度差异问题。
每个兴趣的权重计算公式为:
论文解读:跨域推荐模型MiNet_第4张图片
最后将三个带权重向量和待预估广告拼接起来,输入到一个全连接,得到最后的点击率预估值。
在这里插入图片描述
需要注意的是,论文使用 exp(·) 来计算权重,这使得 v∗ 可能大于 1。这是一个理想的属性,因为这些权重可以补偿维度差异问题。 例如,当 qt 的维度远大于 pu 的维度时(由于更多的特征),pu 的贡献自然会被削弱。 为 pu 分配 [0, 1] 中的权重(将 exp(·) 替换为 sigmoid 函数)无法解决此问题。 然而,由于这些权重是自动学习的,因此在必要时它们也可以小于 1。

3.6、辅助任务

模型加⼊了辅助任务,辅助⽤户⻓期兴趣的学习,辅助任务也是点击率预估任务,主要通过⽤户的⻓期兴趣来预测⽤户对源域中⾃然结果的点击概率,结构如下图所示:

3.7、损失函数

模型的两个任务均使用交叉熵损失函数,通过加权的方式得到最终的损失:
在这里插入图片描述
在这里插入图片描述

四、实验

4.1、算法模型对比实验

论文用了2数据集,uc头条的数据集和亚马逊的评分数据集。

MiNet在AUC和Logloss指标均好于其它模型。

4.2、消融实验:注意力的影响

论文了研究 MiNet 中两种注意力的影响,可以看出,“无注意”的表现最差。这是因为有用的信号很容易被隐藏在噪声中。item-level attention或interest-level attention都可以提高 AUC,并且使用这两个注意力会导致最高的 AUC。此外,interest-level attention(sigmoid)的性能相比(exp)差得多。这是因为不正确的激活函数不能有效地解决维度差异问题。
论文解读:跨域推荐模型MiNet_第5张图片

4.3、消融实验:注意力权重

论文实验了item-level attention权重,并检查它们是否可以捕获信息信号。
从图4可以看出,当目标广告为Publishing & Media (P&M)时,P&M的点击广告权重最高,娱乐新闻的点击权重最高; 但是当目标广告是Game时,Game的点击广告权重最高,Sports的点击新闻权重最高。 结果表明,item-level attention确实为不同的目标广告动态捕获了更重要的信息。 还观察到,该模型可以学习一条点击新闻与目标广告之间的某种相关性。 具有较高展现概率的新闻通常会获得较高的关注权重。

4.4、消融实验:不同类型的用户兴趣建模效果

论文研究了在 MiNet 中对不同类型的用户兴趣进行建模的效果。 在图 5 中的两个数据集上观察到完全不同的现象。在UC数据集上,对短期兴趣进行建模比对长期兴趣进行建模可以得到更高的 AUC,这表明最近的行为在在线广告中非常有用。 而在亚马逊数据集上,对长期兴趣进行建模会得到更高的 AUC。 这是因为亚马逊数据集是电子商务数据集而不是广告数据集,评级的性质与点击的性质不同。 然而,当在 MiNet 中联合考虑所有这些方面时,我们获得了最高的 AUC,这表明不同类型的兴趣可以相互补充,联合建模可以带来最佳和更稳健的性能。
论文解读:跨域推荐模型MiNet_第6张图片

你可能感兴趣的:(推荐算法,广告算法,深度学习,深度学习,广告推荐)