论文2: EMNLP2019-Aspect-Level Sentiment Analysis Via Convolution over Dependency Tree

EMNLP2019-Aspect-Level Sentiment Analysis Via Convolution over Dependency Tree

一.论文思想

  1. ABSA涉及两个任务:(1)识别一个句子的各个方面(2)确定在特定方面表达的情感极性(例如,积极的、消极的、中性的)。在本文中,我们重点研究第二个任务:基于方面的情感分类
  2. 基于神经网络的方法(传统的方法)忽略了诸如依存树的信息资源,依存树能够缩短方面和意见词之间的距离,捕捉了词之间的句法关系,并为信息在树中的传播提供了任意句子上的区别性句法路径,使得依存信息能够有效地保存在长句中。这些特性使得神经网络模型能够毫不费力地捕捉长期的句法依存关系。依存树可以解决长期依赖关系
  3. 为此,本文提出了一种依存树上的卷积模型,该模型利用双向长短期记忆(双LSTM)来学习句子特征的表示,并进一步利用直接在句子的依存树上操作的图形卷积网络(GCN)来增强嵌入。我们的方法将上下文和依赖信息从意见词传播到方面词,为监督提供了区分属性。即在句法依存关系树上建立GCN并结合Bi-LSTM构建模型(CDT)。

二.模型结构

这里的模型结构与论文1《EMNLP2019-Aspect-based Sentiment Classification with Aspect-specific Graph》的模型结构类似,不同的是去除了Attention机制,加入了平均池化。(相关模型结构在论文1中进行了详细的阐述,有兴趣的可以看一下:论文1)

论文2: EMNLP2019-Aspect-Level Sentiment Analysis Via Convolution over Dependency Tree_第1张图片
1.CDT始于一个双向长短期记忆网络(LSTM)层,用于捕获关于词序的上下文信息。

2.为了获得特定于方面的特征,在LSTM输出之上实现了多层GCN结构

3.随后是仅对方面向量(可以理解为上述论文的Mask机制之后进行平均池化)进行平均池化,然后用于预测基于方面的情感。

(CDT通过仅聚集方面向量来提取ABSA分类任务的最终表示。我们认为这就足够了,因为GCN复合体可以被解释为一个沿着边缘传播信息的消息传递网络。因此,连续的GCN操作允许信息在网络上传播,所以用来自观点词的信息对方面向量进行编码,这对于监督来说应该是足够的。具体来说,BiLSTM允许任意一个句子的方面词被语境化,而GCN发现了方面词汇在句法依存树中的局部位置,依存关系树中的本地位置编码单词相对于其邻居的具有依存关系信息,因此,Bi-LSTM和GCN允许方面词的嵌入具有区别特征,为分类任务提供监督信息。)

三.具体流程

1.词嵌入和双向LSTM层

(1)对于一个句子S={W1,W2,Wa1,Wa2,W5}经过词嵌入(Glove),加入词性嵌入和位置嵌入整合后作为Bi-LSTM的输入,其中Wa1,Wa2是方面词汇
(2)经过Bi-LSTM后输出为H0=,作为GCN层的输入

2.依赖树上的图卷积

(1)根据句子构建依赖树,根据依赖树构建邻接矩阵A(此处的依赖树是有向图,有自循环)
论文2: EMNLP2019-Aspect-Level Sentiment Analysis Via Convolution over Dependency Tree_第2张图片

(2)来自LSTM的输出H0作为GCN的输入,经过多层之后得到Hk,其公式计算如下:
在这里插入图片描述

3.特定方面的Mask和平均池化

​ 选取HK中的方面向量仅选取方面向量对非方面向量进行Mask)进行平均池化:
在这里插入图片描述
注:本文选择仅聚合方面向量,因为我们相信这些向量分别由于BiLSTM和GCN而编码上下文和依赖性信息。

4.softmax分类

5.训练

​ 最小化的目标函数是交叉熵误差,定义如下:

在这里插入图片描述

其中,s为一个句子,a为s的方面词汇。

四.实验设置

1.数据集

​ 四种数据集:TWITTER,LAP14,REST14,REST16,与论文1相比少了REST15

2.参数设置

(1)使用Glove进行词嵌入(300维),30维词性嵌入(POS),30维位置嵌入(其用于识别每个单词相对于句子中的方面的相对位置) ,对这三个维度进行整合为50维作为Bi-LSTM的输入。

(2)Adam优化器

(3)学习率0.001

(4)GCN每层去掉10%的神经元,在输入层去掉0.7,GCN训练100个周期,批量为32

3.比较模型

(1)CNN+Position ,LSTM+Position (加入位置信息),CNN+ATT (加入attention机制) (这些模型通过使用平均池聚集所有学习到的嵌入来提取最终嵌入)

(2)TNet (Li et al., 2018a)

(3)PRET+MULT (He et al., 2018b)

(4)SA-LSTM-P (Wang and Lu, 2018)

(5)LSTM+SynATT+TarRep (He et al., 2018a)

(6)MGAN (Fan et al., 2018b)

(7)MGAN (Li et al., 2018b)

(8)HSCN (Li et al., 2018b)

(9)ASP-BiLSTM(模型的受限版本,只利用BiLSTM来对特定方面表达式的上下文信息进行建模,只捕获上下文信息)

(10)ASP-GCN(模型的受限版本,利用GCN来对单词之间的依赖关系进行建模,只捕获依赖信息,这两种模型都在方面向量上提取最终的嵌入)

(11)CDT

五.实验结论

1.特定方面屏蔽对模型表现来说很重要

2.GCN层数为2时,CDT模型表现较好

3.实验发现BiLSTM可以在特定方面的上下文中识别意见词。然而,在一些复杂的环境中,它可能表现不佳。但是GCN可以在Bi-LSTM的基础上,通过利用单词之间的相关性来关注正确的观点单词。

4.基于方面的情感分类的建模表示通常需要捕获表示在目标方面推断的情感的信息词。基于BiLSTM的模型已经成功地在以前的工作中捕获了上下文信息。在本文中,我们将GCN模型与一个简单的BiLSTM模型相结合,旨在捕捉句子的结构和语境信息。我们已经展示了GCN成功地在依赖树上执行卷积来改进BiLSTM嵌入。可视化的实验结果支持我们关于仅基于方面向量提取最终嵌入的论点。事实上,我们提出的模型很简单,并且优于解决相同问题的更复杂和最新的模型。

你可能感兴趣的:(论文笔记,自然语言处理,神经网络,gcn,情感分析)