CRS(6)阅读笔记:WWW2022-Multi-Choice Questions based Multi-Interest Policy Learning for Conversational...

  • 最新被WWW2022接收的CRS研究工作。
  • 该工作在基本的CRS框架上,提出多项选择的形式代替常见的二元(Yes/No)交互,并考虑用户潜在兴趣的多样性。


  • 相关资料:https://www.jianshu.com/p/d0151d43e709

Main Story

  • 本文主要针对多轮对话推荐(Multi-round CRS)进行研究:多次询问属性,进行多次推荐

  • 已有的工作中往往假设:用户对所有的属性和项目都保持着明确的偏好,这可能经常会偏离真实情况。

  • 对于求助于CRS的用户来说,他可能没有一个明确的想法 关于他真正喜欢什么

    • 具体来说,用户可能对某些属性类型(如颜色)的物品有明确的单一偏好;
    • 而对其他属性类型(如品牌),用户可能有多种偏好,甚至没有明确的偏好。
    • 在CRS的引导下,他可以接受一个属性类型的多个属性实例(例如,红色和 黑)。此外,这些属性实例的不同组合通常与不同的物品相关。
  • 因此,用户可以在多个属性实例的组合下显示他对物品的偏好,而不是一个具有所有属性实例的独特组合的单一物品

    针对以上问题,本文的工作如下:

  • 将MCR扩展到一个更现实的场景,即多兴趣多轮对话推荐(MIMCR),其中用户可能对属性实例组合有多种兴趣,并接受多个属性实例组合部分重叠的物品

  • 如上图,用户想要一件黑色的T恤衫。对于诸如 "风格 "或 "品牌 "等属性类型,他可以接受一个或多个实例。他对 "Nike-brand "和 "sports "的组合以及 "solid "和 "polo "的组合分别表现出兴趣。用户可以接受一件 "黑色纯色polo "T恤或一件 "黑色Nike-品牌运动 "T恤衫。由于CRS成功地推荐了其中一个,任务就会完成。

  • 在MIMCR方案下,现有的工作可能会遇到三个重要的限制 MIMCR的情况下,现有的工作可能会遇到三个重要的限制。
  1. 首先,目前的CRS框架通常采用二元提问("你是否喜欢XXX", A: Yes/No),这很简单,但不能有效地激发用户的兴趣。 如图1中的对话(a)所示,尽管用户接受了CRS提出的所有属性实例,但它们的组合并不能引起用户的兴趣。CRS提出的所有属性实例,但这些实例的组合并没有指向用户喜欢的任何目标物品
  2. 其次,如图1中的对话(b)所示,CRS可以通过使用多选题有效地获得用户的偏好。然而,
    现有的方法利用交集策略来选择与所有被接受的属性实例相关的物品,这很容易导致在对话过程中过度过滤用户偏好的候选物品
  3. 最后,现有的方法只是简单地对用户的意图进行统一建模,而忽略了用户兴趣的多样性,这往往会导致无法通过属性实例的组合来识别用户的多种兴趣。
  • 主要贡献:
  1. 将现有的CRS扩展到一个更现实的场景设置,即MIMCR,它全面考虑到了用户兴趣的不完整性和多样性
  2. 对于MIMCR场景,提出了MCMIPL框架,用更合适的策略来生成问题和选择候选物品。此外,方法基于当前状态和历史全局信息,反复提取用户的多种兴趣,通过策略学习决定下一步行动。

Methods

总体框架

  • 与之前的CRS框架基本一致,总体目标是学习策略网络,以期有最大化期望累积收益。
  • 具体包含3个步骤

User Modeling

  • 构建用户状态表征

    - 以前的方法中只从当前状态中提取用户偏好,而忽略了历史交互对用户偏好的影响。

  • 因此,本文构建了两个图 Current Graph 和 Global Graph来对用户历史交互进行充分利用,以学习用户表征

Consultation

  • 决定对用户进行推荐还是属性询问,主要基于DQN进行学习。
  • 如果agent决定去询问问题,本文的方法会从行动空间中选取同一属性类型下的K个属性实例进行提问。用户可以选择0到多个属性。这是本方法不同于其他框架的关键点。

Transition

  • 在得到用户的反馈后,本步骤进行状态转化,调整候选集合等。
  • 其中对于候选物品的更新,本方法区别以往方法中的交集策略,考虑到用户兴趣的多样性,使用并集策略更新候选物品。
  • 最后RL的reward设计如下:

    与之前的方法一致。

Multi-Interest Policy Learning

  • 在以上框架的基础上,作者提出了多兴趣学习策略
  • 主要点在于对用户多兴趣的建模,详细的模型设计请阅读原文。

Exps


小结

  • 本文针对多轮对话式推荐中对用户兴趣假设上的缺陷,对已有的MCR框架进行改进,提出了更符合实际使用场景的多选MCR。
  • 并在该框架上提出对用户多兴趣进行建模的方法。实验效果上取得了显著提升。
  • 总体来说,本文提出的框架很有借鉴价值,后续案件可以将其作为通用框架,进行更深入的用户建模以及策略学习设计。

END

本人所有文章均为原创,欢迎转载,请注明文章出处 。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问本人主页查看最新信息https://www.jianshu.com/u/40d14973d97c

你可能感兴趣的:(CRS(6)阅读笔记:WWW2022-Multi-Choice Questions based Multi-Interest Policy Learning for Conversational...)