KinGDOM: Knowledge-Guided DOMain adaptation for sentiment analysis论文研读(一)

KinGDOM: Knowledge-Guided DOMain adaptation for sentiment analysis(ACL 2020)

近年来,跨域情感分析受到了广泛的关注,这是由于需要克服不同应用之间的领域差距,利用情感分析进行跨领域分析。在这篇论文中,以一种全新的视角来探讨外部常识知识的作用。引入了一个新的框架KinGDOM,该框架利用ConceptNet知识图来丰富文档的语义,同时提供特定领域和领域通用的背景概念。这些概念是通过训练一个图形卷积自动编码器来学习的,该编码器以一种域不变的方式利用域间概念。用这些学习到的概念来调整一个领域对抗性基线方法有助于提高其性能。

1、跨领域情感分析的相关方法:

  • 学习特定领域的情感词/词汇(Sarma等人,2018年;Hamilton等人,2016b)
  • 基于共现的学习(Blitzer等人,2007a)
  • 领域对抗性学习(Ganin等人,2016年)
    在论文中,采用了领域对抗框架,并试图通过使用ConceptNet——一个大规模的知识图(Speer et al.,2017)引入常识知识来进一步改进。

2、为什么要引入外部知识库(KB)来做领域对抗性学习的改进:

  • 使用外部知识库(KB)增强神经模型在一系列NLP应用中显示除了它的优势(Peters等人,2019;Li等人,2019;IV等人,2019;liu等人,2019;Bi等人,2019)。尽管KBs很受欢迎,但将KBs纳入领域适应框架的工作很少(Wang等人,2008年;Xiang等人,2010年)。为此,论文引入使用常识知识库进行域适应。
  • 常识知识库,提供了丰富的背景概念来源(通过常识链接相关),通过提供特定领域和领域一般概念,可以增强文本的语义(Yang等人,2019年;Zhong等人,2019年;Agarwal等人,2015年;Zhong等人,2019年)。
  • 在特定领域的场景中,常识知识提供了一种动态的方式来增强上下文,并帮助模型通过其结构关系来理解情感化术语和观点目标(Cambria等人,2018)。它们也常常有助于挖掘含蓄表达的情感(Balahur等人,2011年)。
  • 域通常通过潜在的语义概念共享关系(Kim等人,2017a)。多关系知识库为利用这种域间关系提供了一种自然的连接方式。这些连接可以通过将已知的领域通用概念甚至特定域的概念关联起来,帮助模型理解特定于目标的术语。

3、KinGDOM模块化框架

  • 1、KinGDOM首先在ConceptNet上使用图卷积网络(GCN)训练一个共享图自动编码器。
  • 2、学习:1)通过多个相邻概念的推理步骤实现域间概念链接;2)共享自动编码产生的域不变概念表示。
  • 3、提取特定于文档的子图嵌入,并将其提供给领域对抗模型DANN(Ganin等人,2016)。
  • 4、在这些提取的图嵌入上训练一个共享的自动编码器,以促进域不变性(Glorot等人,2011)。

4、相关工作

4.1 域自适应方法大致可分为三种方法:

  • a)实例选择(Jiang and Zhai,2007;Chen et al.,2011;Cao et al.,2018);
  • b)自标记(He and Zhou,2011);
  • c)表征学习(Glorot et al.,2011;Chen et al.,2012;Tzeng et al.,2014)。————此论文关注第三类方法。

4.2 领域对抗性训练相关研究。

  • 论文涉及领域对抗性方法(Kouw和Loog,2019),论文扩展了DANN (Ganin等人。(2016))。
  • DANN很受欢迎,但它不能为特定领域的信息建模(例如,厨房领域美味可口的指标)(Peng等人,2018b)。
    • 使用对抗性和正交性损失(Liu et al.,2017;Li et al.,2017;Li et al.,2016a;Kim et al.,2017b;Chang et al.,2019)对含有域不变性和特定特征建模的共享私有编码器进行修正(Liu et al.,2012;Bousmalis et al.,2016a;Kim et al.,2017b;Chang et al.,2019)。
    • 论文不使用私有编码器,但假设模型能够通过特定于句子的概念图来捕捉领域的特殊性。而且,方法足够灵活,可以适应共享私有编码器的设置。

4.3 外部知识相关研究

  • 在感应和传导环境中都探索了外部知识的使用(Banerjee,2007;Deng等人,2018)。很少有研究以维基百科为辅助信息,利用协聚类(Wang et al.,2008)和半监督学习(SSL)(Xiang等人,2010)来探索领域适应中的外部知识。
  • Alam等人在Twitter领域也对SSL进行了研究。(2018)
  • 此论文在概念级学习图形嵌入,而不是跨完整实例。此外,没有对图中的每个概念节点进行分类,这使得SSL不适用。

4.4 图的域适应相关研究。

  • 基于图的域适应根据跨域连接的可用性进行分类。对于领域独占图,方法包括使用GCNs的SSL(Shen and Chung,2019)和域对抗学习(Dai et al.,2019)。
  • 对于跨域连通图,研究了共正则化训练(Ni et al.,2018)和联合嵌入(Xu et al.,2017)。
  • 论文利用GCNs来学习跨域ConceptNet图中的节点表示。然而,论文没有使用显式的发散度量或域对抗性损失来实现域不变性,而是在GCNs上唯一地采用了共享的自动编码策略。这些想法已经在基于向量的方法中进行了探索(Glorot等人,2011年;Chen等人,2012年)。

4.5 情感分析相关研究

  • 一种依赖领域的单词嵌入模型(Sarma et al.,2018;Shi et al.,2018;K Sarma et al.,2019)
  • 依赖领域特定情感词典模型(Hamilton et al.,2016a)
  • 试图基于特定领域与领域独立项的共现来学习表示(Blitzer et al.,2007a;Pan et al.,2010;Sharma)等,2018年)。
  • 论文的工作涉及在目标域中解决域特异性的方法(Peng等人,2018b;Bhatt等人,2015),通过在诸如ConceptNet这样的知识库中建模它们和其他术语的关系来处理相关的领域特定术语。

5、论文背景

5.1 论文任务的定义

  • 领域适应是指训练能够在多个领域可靠地进行推理的模型。跨域,假设特征空间和标签空间相同,但在特征分布上存在差异。
  • 论文考虑了无监督的域适应,从源域获得带标签的实例和来自目标域的未标记实例,目标是训练一个能够在目标域上获得良好分类性能的分类器。

5.2 领域对抗性神经网络

  • 论文框架是基于Ganin等人提出的领域对抗性神经网络(DANN)。(2016年)。DANN学习源域和目标域实例M(xs/t)的共享映射,以便为源域训练的分类器C可以直接应用于目标域。

6、论文提出的模型

  • KinGDOM旨在通过利用外部知识源(即ConceptNet)改进DANN方法。这样的知识库对于领域适应特别有用,因为它包含领域特定知识和领域一般知识。与传统的单词嵌入和语义知识图(如WordNet)不同,ConceptNet的独特之处在于它包含了与常识相关的信息。我们假设ConceptNet的这两个属性对于域适应非常有用。KinGDOM遵循以下两个步骤:
    • 步骤1:这一步是训练ConceptNet的一个域聚合子图。具体来说,它涉及到:
      • a)创建基于所有域的ConceptNet子图。
      • b)训练图形卷积自动编码器以学习概念嵌入(Schlichtkrull等人,2018)
    • 步骤2:在图形自动编码器被训练之后:
      • a)从训练好的图中为数据集中的每个实例提取和汇集文档相关的特征。
      • b)然后将相应的图形特征向量输入DANN体系结构,用于对抗性训练(Gann等人,2016)。
      • 为了进一步加强域不变性,还引入了一个共享的自动编码器来重建图的特征。

你可能感兴趣的:(KinGDOM: Knowledge-Guided DOMain adaptation for sentiment analysis论文研读(一))