会话推荐相关知识学习

文章目录

  • 基于图神经网络的会话推荐算法的研究与实现 论文结构
  • MTD
  • 前言
  • 一.马尔科夫链
  • 二.数学符号在论文中的格式
  • 三.门控循环单元(GRU)
    • 1.Gate
    • 2.重置层与更新层
    • 3.候选隐藏状态
    • 4.隐状态
    • 5.总结
  • 四.注意力机制
  • 五.损失函数
    • 1.Pointwise Loss
    • 2.Pairwise Loss


基于图神经网络的会话推荐算法的研究与实现 论文结构

文章结构
会话推荐相关知识学习_第1张图片

MTD


MTD的论文结构
概念相关
会话推荐:核心是基于一组匿名的用户临时或指定的行为序列(例如,点击、浏览或购买项目序列)预测下一个交互项目。

1.现有技术的瓶颈
不能很好地捕获呈现时序有序、多级相互依赖关系结构的复杂转换动态

原因:忽略了项目转换模式的关系层次结构

2.本文工作
在本文中,我们提出了一个具有多级转换动态(MTD)的多任务学习框架,该框架能够以自动和分层的方式联合学习会话内和会话间的动态项目转换。

(1) 位置感知的注意力机制: 学习单个会话中的项目转换规律
(2) 图结构的层次关系编码器: 在全局图上下文中嵌入传播来捕获高阶连接形式的跨会话项目转换.
(3) 会话内和会话间转换动态的学习过程通过跨单元关联,无缝地保留了共同潜在空间中低层和高层项目的潜在关系。

3.Frame

前言

读文章过程中所遇到的知识盲点

一.马尔科夫链

马尔科夫链为状态空间中经过从一个状态到另一个状态的转换随机过程,该过程要求具备“无记忆性 ”,即下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性 ”称作马尔可夫性质。

马尔科夫链认为过去所有的信息都被保存在了现在的状态下了 。比如这样一串数列 1 - 2 - 3 - 4 - 5 - 6,在马尔科夫链看来,6 的状态只与 5 有关,与前面的其它过程无关。

参考笔记:https://zhuanlan.zhihu.com/p/448575579

二.数学符号在论文中的格式

https://blog.csdn.net/MrCharles/article/details/80521499

三.门控循环单元(GRU)

门控循环神经网络(gated recurrent neural network)的提出,是为了更好地捕捉时间序列中时间步距离较大的依赖关系。它通过可以学习的门来控制信息的流动。其中,门控循环单元(gated recurrent unit,GRU)是一种常用的门控循环神经网络。

1.Gate

这一块,通过一些额外的控制单元,使得我们在构造状态、隐藏状态时,从而达到更关注那一块(保留那一部分的信息,不关注那一块。

2.重置层与更新层

如下图所示,该图表示的是一层。
会话推荐相关知识学习_第2张图片
Rt:重置,Zt:更新,W是权重,b是bias

3.候选隐藏状态

会话推荐相关知识学习_第3张图片
Rt:是与Ht-1长度一样的向量,其值是0~1之间的。
⨀:按元素点乘
Ht-1代表的是前一时刻的状态,因为R的每个值是0~1之间的,如果0与对应的元素相乘的结果是0,1与对应的结果是它本身,这样就可以控制从t-1到t时刻的重置度。

4.隐状态

如果Zt = 1,那就相当于不更新;Zt = 1等于0时,代表完全不考虑过去的状态,而去考虑现在的状态。
会话推荐相关知识学习_第4张图片

5.总结

会话推荐相关知识学习_第5张图片
(1)Rt的作用在于更新现在的候选隐藏状态时,要用到多少过去隐藏状态的信息。
(2)要算真正隐藏状态信息时(Ht),需要用到当前新的与Xt相关的多少信息。

四.注意力机制

会话推荐相关知识学习_第6张图片
1.注意力机制
随意线索被称为query,就是你想要干什么。而所处环境被认为是一些键值对,不随意线索就是keys,会有对应的值。Key和value可以是一样的也可以是不一样的。
会话推荐相关知识学习_第7张图片
2.从古老的技术到新的技术
会话推荐相关知识学习_第8张图片

(1) (xi,yi)就是键值对;f(x)中的x是query;
(2) K是一个函数,可以认为是衡量x与xi之间距离的一个函数。
(3) A部分算出来其实就是一个权,B部分就表示,当给定一个x(query),会选择与x相近的xi,然后把输出xi所对应的yi。所以nadaraya-watson是非参的,不需要学任何东西。

下面来看看函数K的选择。
会话推荐相关知识学习_第9张图片
高斯核:高斯分布(正态分布)
exp作用: 映射到大于等于0的域中。
这样就是一个非学习的注意力机制,很早就有了。在前文所述基础上,还可以引入一个可以学习的参数w,这里的w是一个标量,可以拓展到多维。
会话推荐相关知识学习_第10张图片

五.损失函数

损失函数是用来衡量真实值与预测值之间的差距。下面两类,并举例。
会话推荐相关知识学习_第11张图片

1.Pointwise Loss

评估单个样本真实标签的预测准确度,即计算单个loss时要么只用一个正样本,要么只用一个负样本。总误差既包括正样本带来的误差,也包括负样本带来的误差。
例如:log loss
将推荐任务作为分类问题

  1. 常用领域
    Rating prediction以及 CTR prediction
  2. 公式
    会话推荐相关知识学习_第12张图片

https://blog.csdn.net/weixin_41580067/article/details/85060050?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2aggregatepagefirst_rank_ecpm_v1~rank_v31_ecpm-2-85060050.pc_agg_new_rank&utm_term=logloss+%E6%8D%9F%E5%A4%B1%E5%87%BD%E6%95%B0&spm=1000.2123.3001.4430
参考文章

2.Pairwise Loss

评估一个样本对的标签与真实标签是否一致,即计算单个 loss 时会同时用到一个正样本和一个负样本。
例如:BPR loss (bayesian personalized ranking loss)

  1. 常用领域
    通常用于ranking(top-n推荐)和rating(给物品打分)两个问题。
  2. 思想
    让正样本和负样本之间的得分之差尽可能的大。
  3. 公式
    会话推荐相关知识学习_第13张图片

你可能感兴趣的:(深度学习,推荐算法)