KGCapsAN论文翻译

摘要:
基于方面(方面级)的情感分析是在细粒度情感分析中非常重要的子任务,旨在自动推断出某一方面在其上下文中的情绪。之前的研究已经表明,利用注意力为基础的方法可以有效地提高基于方面的情感分析的精度。尽管有了卓越的进步,基于方面的情绪分析现实中几个方面
挑战。
(1)目前基于注意力的方法可能会导致某一方面的注意力不正确地集中在与句法无关的词上。

(2)传统的方法无法将情感与特殊的句子结构区分开来,如双重否定。

(3)大多数研究只利用一个向量来表示上下文和目标。然而,利用一个向量来表示句子是有限的,因为自然语言是精致和复杂的。
然而,利用一个向量来表示句子是有限的,因为自然语言是微妙而复杂的。在本文中,我们提出了一种知识导向胶囊网络(KGCapsAN),可以解决上述问题的缺陷。我们的方法由两部分组成,即Bi-LSTM网络和胶囊关注网络。胶囊关注网络通过关注机制实现路由方式。此外 ,我们利用两个先验知识来指导胶囊注意过程,即句法结构和n-gram结构。广泛的实验了六个数据集,结果表明,该方法达到了最好标准

1.介绍
基于方面情感分析(Aspect-based sentiment analysis, ABSA)是一个细粒度的情绪分析任务。它旨在识别句子或文件中意见目标的情感极性(例如,阴性,中性,或阳性)。大多数句子或文档来自在线帖子,比如亚马逊评论或Twitter。最近几年ABSA越来越受欢迎,它在现实世界中有着广泛的应用。例如,它可以帮助提高洞察力在消费者的需求或他们的产品经验,引导生产者改进他们的产品。
基于方面的情感分析可以被分类成两个子任务,分别是ACSA(方面目录情感分析),ATSA(方面术语情感分析)。ACSA目标是识别给定方面的情感极性,通常是一些已经定义好的目录,然而ATSA是预测在文本中出现的方面术语的情感极性,可以是一个词或者短语。举例来说:“The food price is reasonable although the service is poor”表达了食品价格方面的积极情感和服务方面的消极情感。作为方面术语使用的不同单词的数量可能超过1000个,这带来了更多的挑战。在这里,我们集中在ATSA在这篇论文。

现有的ATSA方法可以分为两类。传统方法主要利用统计方法通过设计一系列手工特征去训练一个分类器来分类不同方面的情感,如SVM。但是,大量的手工制作的特征的准备是劳动密集和成本昂贵的。受最近深度学习在自然语言处理中的性能突破的启发,深度神经网络(比如卷积神经网络(CNN)和递归神经网络(RNN))在文献中占据了主导地位。这是因为这些方法可以自动生成方面和上下文有用的低维并且达到显著的效果,不需要细心特性工程。最近,一些研究试图使用基于深度学习方法来进行ATSA问题处理。
尽管前期有效的研究,将他们应用到实际生活中还是存在一些挑战:
(1)目前的注意力机制可能引起一个给定的方面错误的关注在语义不相关的词上面
(2)传统的方法不能很好地处理特殊结构的句子
(3)现有的模型很大程度上依赖于实例表示的质量。传统的方法主要用向量表示上下文和方面。例如,一些研究利用方面术语作为查询来使用上下文的注意方法来获取表示向量。然而,利用一个向量来表示实例是有限的,因为自然语言是精致和复杂的。
在这个文章中。我们提出来另一个只是引导胶囊注意力网络,我们的模型灵感来源于先验知识比如语义知识可以帮助我们识别出方面词语义相关的知识以及理解特殊的句子结构,在图一中我们观察到语义知识可以帮助我们识别出面向方面词情感相关的词。在KGCapsAN中,我们首先提出用bi-lstm网络来给文本建模,然后,我们发展出胶囊注意力网络来提升句子和方面的表达、胶囊网络提出用于建模低层网络和高层网络之间的部分与整体关系。CapsNet利用动态路由机制传输信息,通过迭代更新上下两层胶囊之间的耦合系数。它的目的是通过控制自循环的数量来扩展多跳注意机制,实现单注意层的多步注意。
CAN利用了动态路由的想法,把bilstm获得的隐藏层状态看作是低层胶囊。CANcap扩展了传统的多跳注意机制,将句法、句子结构等高级信息作为注意查询,以指导注意过程,提高ATSA的性能。具体来说,第一个部分目的是利用语义知识。我们将每句话的依存树送入送入来获得语义关系;然后我们针对每个句子建立一个小的图,节点和边表示语义关系;之后GCN被用来学习图的表达,它是一种有效的基于图的神经网络,通过捕获高阶邻域信息来实现图的表示,从而捕获语法上相关的词。第二部分设计来捕获特殊情感短语。为此,我们开发了一个基于cnn的局部n-gram层,它可以利用信息性词(1-gram)或短语(n-gram)作为第二次部分来引导注意机制。

这篇论文的主要贡献点可以被归纳为以下几点:

我们提出KGCAPSAN一个对于ATSA任务全新的框架,利用注意力机制来模拟胶囊网络,KGCapsAN利用多重查询来指导注意过程,并为输出的胶囊提供更多的信息,有效地提高了情绪分类。
我们提出多知识引导基于注意力的胶囊来指引注意力的过程,利用带有n-gram的句法和情感作为先验知识,学习句法感知和局部n-gram感知表示。
为了评估我们的方法的有效性,我们在五个广泛使用的数据及上进行了大量实验。甚至我们收集了特别的特殊句子结构的数据(SPATSA)比如条件句和虚拟语气ATSA。实验结果表明我们提出的CAN模型可以更好地利用语义信息来提高文本表达。这因此使我们的模型更好的适应ATSA复杂的句子结构。这个结果同时证明我们的模型达到了SOTA

2相关工作
A方面层级情感分析
之前在情感分类方面的研究已近实现了可观的结果在句子级或者文档级。然而,这些方法通常产生完整文本的情感分类,与方面无关
最近ABSA吸引了更多的注意力,更多的方法被发展出来。这些方法可以被分类为传统机器学习方法和基于神经网络的方法。传统的机器学习方法关注在抽取一系列手工定义的特征比如情感词来训练基于情感统计的分类器。然而类似的方法很大的依赖于人工构建的特征这是非常昂贵并且人工密集的。
在基于注意力的深度神经网络显著进步的驱动下,许多研究情感分类的放大都被发展起来。例如,Tang开发了一个记忆网络,利用多跳注意机制来学习上下文词的权重,并使用加权和来计算特定方面的文本表示。Tang提出TD-LSTM扩展标准结构,使用两个独立的lstm分别对目标词的左上下文和右上下文建模。Li利用分层注意网络识别对目标的信息性情感词来指导分类器。马提出了用两种注意网络交互地学习目标和上下文的表示。
B基于注意力的胶囊网络
胶囊网络第一次被hinton提出,他介绍了一个胶囊的概念,通过转移矩阵来让网络自动学习整体与部分的关系。
随后,Sabour提出了一种基于路由的胶囊网络方法。每个胶囊是神经元的集合,代表一个特定特征的各种属性。这些属性表示不同的实例化参数,比如相对位置。因此,胶囊网络比传统的深度神经网络具有更强的文本表示能力。进一步的研究扩展了基于路由的胶囊网络用于自然语言处理的应用。
动态路由方法类似于多跳注意方法,通过自迭代耦合系数更新将低层胶囊聚合到上层。为了提高运算速度和并行能力,一些研究利用注意机制扩展了基于动态路由的胶囊方法。周介绍了一种基于包的视觉答题注意力方法,并取得了显著的效果。胶囊注意采用多跳注意机制,将注意权重表示为耦合系数。Wang提出了一种基于rnn的句子级情绪分析胶囊网络。给出一个由标准神经网络编码的隐藏向量作为注意力查询,利用典型的注意力机制可以得到胶囊表示。设计了方面-目标层的胶囊模型,将目标信息集成到单个胶囊单元中,取得了显著的进展。Yang等人开发了一种查询引导的胶囊网络,将胶囊路由机制集成到多头注意结构中,在情绪识别准确率方面有显著的性能提升。
C图神经网络
最近图形神经网络在NLP任务中得到了越来越多的关注。随着深度的发展学习方法,许多研究已经扩展了深层神经网络结构,可用于任意结构化图。其中,K和W提出图卷积网络(GCN)。这在许多基准测试数据集上产生了显著的结果。随后,许多其他研究将GCN扩展到各种任务,如机器翻译和文本分类。最近的研究探索了图形神经网络的文本分类。例如,graph-CNN方法提出了将文本转换为图结构可以捕获非连续长途语义。在[27]中,将文档和单词表示为节点,构造异构图,然后使用GCN进行分类。这种方法不需要文档之间的关系,但是它可以实现最先进的文本分类结果。

3KGCapsAN 模型
KGCapsAN目的是解决ATSA中基于注意力的传统方法的不足。其中,胶囊注意网络(CAN)是KGCapsAN的核心组件,它通过基于胶囊的注意机制实现了CapsNet结构的动态路由过程。具体来说,CAN使用句法知识和n-gram信息作为查询来引导注意力,然后将这些知识与表示向量相结合,增强表示能力。
如图2所示,KGCapsAN由两部分组成,即Bi-LSTM网络和胶囊注意网络,用于提高ATSA的性能。我们将在第三节中给出任务定义和模型的概述。然后,我们在详细描述了Bi-LSTM网络和CAN。最后,训练过程将在第iii节中讨论。

A任务定义
ATSA任务可以表述如下。给定一个句子x包含一个相关的方面词,w表示句子中的每个单词和m表示方面术语的长度。每个句子都有一个情绪标签y。ATSA的目的是预测输入句子x对给定方面术语的情绪标签。本文用上标“c”、“a”分别表示上下文词和方面词。为了清楚起见,本文中使用的符号归纳在表1中

B框架概览
如图2所示,KGCapsAN包含两个主要组件:Bi-LSTM网络和胶囊注意网络。Bi-LSTM网络采用基本Bi-LSTM结构训练文本功能。它包含一个嵌入层和一个用于捕获文本的顺序特性的Bi-LSTM层。CAN包含四层。第一层是句法层,它使用使用句法依赖树构造的句法图来获取句法查询。第二层是局部n-gram层,它使用CNN来捕捉n-gram的信息性特征。第三层是方面查询层,利用方面术语学习整个句子的方面信息。在CAN中,这三层都表示为胶囊注意力层的注意查询,可以有效的引导注意。

C. Bi-LSTM Network

D. Capsule Attention Network
在迭代路由过程中,采用传统的胶囊网络捕捉部分-整体关系。通过迭代更新耦合系数,将下层的胶囊变换聚合到上层,从而将下层的胶囊转移到上层。每个胶囊是神经元的集合,其中每个神经元表示文本中出现的特殊特性的多个属性。这些属性可以是实例化参数的种类,例如单词和它在句子中的位置之间的句法关系。
然而,在ATSA中直接使用这种胶囊网络存在两个缺点。首先,胶囊网络在推断情感的同时,不能专注于方面词语。其次,原有的动态路由机制独立于反向传播阶段,耗时长,无法并行化。
为了缓解上述问题,我们提出了CAN,即利用注意机制来实现胶囊结构。合理利用,胶囊基础结构来表示句子,因为它可以获得更多的信息,而不是只使用一个向量的传统基于注意力的方法。CAN的发展基于两个特点:1)使用句法信息可以有效地解决在短时间或长时间内不正确地关注与句法无关的词的问题。2) n-gram学习能力的提高可以帮助模型准确理解复杂的结构,如“不错”可以看作是一个整体。
接下来,我们将分别介绍每个组件。
1)句法层:学习语法相关的词汇语法层向目标方面通过依赖树,广泛用于NLP的任务,可以有效地识别单词之间的关系。给出一个句子x,我们首先建立一个句法图(s -图)来描述这个句子的句法关系。s -图利用这些词作为节点。它根据句法关系构造加权边缘。我们表示A为s图的邻接矩阵。在得到句子H∈Rn×d的隐藏状态后,我们将其输入到一个双层GCN中。
2)局部n-Gram层:对于ATSA来说,网络学习感知携带n-Gram的特征,如“不错”是很重要的。因此,我们开发了一个n-gram层来提高n-gram特征的学习能力。语法层由两个卷积层组成,通过卷积操作提取输入序列的n-gram特征。由于这两个卷积层共享类似的结构,所以我们只给出其中一个卷积层的细节。令W∈Rk×d为卷积滤波器,其中k为滤波器宽度。宽度为k的过滤器允许卷积层在输入序列上滑动并获得新的特征。我们将zi表示为从该词的局部窗口获得的新特征
在这里,滤波器权值和每个滤波器的偏置项在输入的所有位置之间共享,从而保持空间局部性。最后,我们将.发送到第二卷积层,就可以得到卷积表示z。我们观察到,对于ATSA,面向方面的情感词词具有位置属性,这些词在方面项周围出现的范围很小。为了获得重要的局部n-gram滤波器,我们利用方面特定的零掩码来选择k-range词。这是因为两层卷积操作可以将2k面积上的n-gram信息表达成目标方面的表示向量。计算细节如图4所示。最后,掩码隐藏向量记为Zmask。

3)方面查询层:这一层的目标是学习特定于方面的查询,以引起胶囊的注意。为了更好地将特定于方面的查询嵌入到CapsAttention层中,我们还利用了特定于方面的零屏蔽来适应维度大小。形式上,我们将H发送到掩蔽层,方面查询层的输出可以表示为Hmask

  1. CapsAttention Layer:为了实现具有attention机制的动态路由,我们提出了一种迭代的attention算法,称为CapsAttention Layer。图5给出了一个示例。CapsAttention layer将Bi-LSTM隐藏状态下的每个向量作为输入层胶囊,注意力输出为包含与预测相关信息的输出胶囊。这里,输出胶囊有三个向量,可以用矩阵形式表示。在CapsAttention层中,我们利用三个查询以迭代的方式引导注意力。具体地说,在第一次迭代中,我们将三个查询V 1s、V 1z、V 1h分别初始化为Smask、Zmask和Hmask。给定输入胶囊H∈Rn×d,耦合系数矩阵c可计算为:

4.实验
A数据集
5个:twitter 、lap14&rest14,rest15,rest16,spatsa
B基线模型
SVM、LSTM、IAN、MemNet、AOA、TNet-LF、TransCap、ASGCN

你可能感兴趣的:(KGCapsAN论文翻译)