Abstract
基于Aspect的情感分析(ABSA)能提供比一般情感分析更详细的信息,因为它的目的是预测文本中给定的aspect或实体的情感极性。我们将以前的方法归纳为两个子任务:aspect类别情感分析(aspect-category sentiment analysis (ACSA)) 和aspect实体情感分析( aspect-term sentiment analysis (ATSA) )。以往的方法大多采用长期记忆(LSTM)和注意力机制(Attention)来预测相关目标的情绪极性,这往往是复杂的,需要更多的训练时间。我们提出了一种基于卷积神经网络和门控机制的模型,该模型具有更高的精度和效率。首先一种新的Tanh-ReLU 门单元能够根据给定的aspect或实体选择输出的情感特征。这个结构比应用于现有模型的注意力层简单得多。第二,我们的模型的计算在训练过程中很容易并行化,因为卷积层不像LSTM层那样具有时间依赖性,并且门单元也能够独立的工作。在SemEval数据集上的实验证明了模型的效率和效果。
1、Introduction
对用户生成的评论进行意见挖掘和情感分析(Pang和Lee,2008)可以为提供者和消费者提供有价值的信息。除了预测整体情绪极性, 基于细粒度方面的情绪分析 (ABSA) (刘和张, 2012) 能够比传统情绪分析更好地理解评论。具体而言,我们对文本中的aspect类别或目标实体的情感极性感兴趣。有时,它与aspect实体提取相结合(Xue等人,2017年)。已经为ABSA开发了许多模型,但有两个不同的子任务,即aspect类别情绪分析(ACSA)和aspect实体情绪分析(ATSA)。ACSA的目标是预测给定aspect的情绪极性,这是几个预定义的类别之一。另一方面,ATSA的目标是识别文本中出现的目标实体的情感极性,它可以是一个多词短语,也可以是一个单词。对aspect实体有贡献的不同单词的数量可能超过1000个。例如,在句子 "Average to good Thai food, but terrible delivery",ATSA会问对实体Thai food情绪极性 ;而ACSA 会问对aspect的服务的情感极性,即使词service没有出现在句子中。
许多现有的模型使用LSTM层(Hochreiter和Schmidhuber,1997)从嵌入向量中提取情感信息,并应用注意力机制(Bahdanau等人,2014年),强制实施模型,将重点放在与特定aspect/实体相关的文本范围上。这类模型包括ACSA的基于注意力的LSTM(ATAE-LSTM)(Wang等人,2016年b);ATSA的目标相关情绪分类(Td-LSTM)(Tang等人,2016a)、门控神经网络(Zhang等人,2016)和递归注意记忆网络(RAM)(Chen等人,2017)。注意力机制已经成功地应用于许多自然语言处理领域。它首先计算上下文向量和目标向量之间的对齐分数,然后用分数和上下文向量进行加权和。然而,上下文向量必须同时编码aspect和情感信息,无论这两种类型信息之间的差异如何,都会在所有特征尺寸上应用对齐分数。在训练过程中,LSTM和注意层都是非常耗时的。LSTM一步处理一个token。注意层涉及到句子中所有单词的指数运算和所有对齐分数的归一化(Wang等人,2016b)。此外,一些模型需要单词和目标之间的位置信息来生成加权LSTM(Chen等人,2017),这在杂乱的评论文本中可能是不可靠的。当然,通过建立越来越复杂的LSTM单元和复杂的注意机制,可以获得更高的精度;但是必须在记忆中保存更多的参数,获得更多的超参数来调整和花费更多的时间在训练中。本文提出了一种基于卷积和门控机制的快速有效的ACSA和ATSA神经网络。与基于LSTM的网络相比,训练时间更短,但精度更高。
对于ACSA任务,我们的模型在嵌入层的顶部有两个独立的卷积层,其输出由新的门控单元组合而成。有多重过滤器的卷积层能够在每个可接受的领域的许多粒度下有效的抽取n-gram特征。所提出的门控单元具有两个非线性门,每个门都连接到一个卷积层。对于给定的aspect信息,它们可以有选择地提取特定aspect的情感信息,用于情绪预测。例如,在句子 "Average to good Thai food,but terrible delivery"中,当food这个aspect被提供,门单元能够自动忽视在第二个子句中delivery这个aspect的消极情绪,并且只输出第一个子句的积极情绪。与基于LSTM和注意力机制的模型相比,该模型的各部分易于并行化,训练时间更短。对于ATSA任务,在aspect实体由多个单词组成的情况下,我们将模型扩展到包含目标表达式的另一个卷积层。我们在SemEval数据集上评估我们的模型,它包含餐馆和笔记本电脑评论,标签为aspect。据我们所知,到目前为止,还没有人提出基于CNN的基于aspect的情感分析模型。
2 、Related Work
我们将相关研究分为以下两类:
2.1 Neural Networks
近年来,神经网络在情感分析或句子分类任务方面得到了广泛的应用。基于树的递归神经网络,如递归神经张量网络(Socher等人,2013年)和Tree-LSTM(TAI等人,2015年),利用句子结构的句法解释,但是这些方法都存在时间效率低下和分析错误的问题。递归神经网络(RNNs),如LSTM(Hochreiter和Schmidhuber,1997)和GRU(Chung等人,2014年),已被用于变长数据实例的情感分析(Tang et al.,2015年;许等人,2016年;赖等人,2015年)。在NLP中也有许多使用卷积神经网络的模型(Colobert等人,2011年;Kalchbrenner等人,2014年;Kim,2014年;Conneau等人,2016年),这也证明了卷积运算无需费力的特征工程就可以捕捉语义信息丰富的文本的组成结构。
2.2 Aspect based Sentiment Analysis
基于aspect的情感分析有着丰富的研究成果。实际上,在文献中,ABSA这个名字被用来描述两个不同的子任务。根据SemEval 2014任务4中情感分析任务的描述,我们将现有工作分为两大类(Pontiki等人,2014年):aspect实体情绪分析和aspect类别情绪分析。
Aspect-Term Sentiment Analysis(ATSA):在第一类中,情感分析是针对在给定句子中标记的aspect实体进行的。大量文献试图利用目标词与周围语境词之间的关系或位置,要么使用依赖的树结构,要么简单地计算。它们之间作为相关信息的字数(Chen等人,2017年)。递归神经网络(Lakkaraju等人,2014年;董等人,2014年;Wang等人,2016年a)依赖外部句法解析器,这可能是非常不准确和缓慢的噪音文本,如推文和评论,这可能导致较差的性能。递归神经网络在许多NLP任务和ABSA问题中都有广泛的应用。TD-LSTM(Tang等人,2016a)和门控神经网络(Zhang等人,2016)使用两或三个LSTM网络分别对给定目标的左右上下文进行建模。具有门控单元的完全连接层与LSTM层的输出预测情感极性。记忆网络(Weston等人,2014年),再加上多跳注意力,试图显式地只关注信息最丰富的上下文区域,从而推断出目标词的情感极性。(Tang等人,2016年b;Chen等人,2017年)。然而,记忆网络仅仅基于单个词的嵌入向量(Tang等人,2016b),这使得很难学习包含在更复杂的上下文中的意见词。利用LSTM、注意层和特征工程提高了系统的性能。使用周围单词和目标词之间的单词距离,以产生特定的目标记忆(Chen等人,2017)。
Aspect-Category Sentiment Analysis(ACSA):在这个类别中,模型被要求预测一个预定义的aspect类别的情感极性。基于注意的LSTM具有aspect嵌入(Wang等人,2016 b)使用aspect词的嵌入向量来选择性地参与LSTMS生成的表示区域。
3、Gated Convolutional Network with Aspect Embedding
在这一部分中,我们提出了一个新的ACSA和ATSA模型,即带aspect嵌入的门控卷积网络(GCAE),这比基于递归网络的模型更高效、更简单(Wang等人,2016年b;Tang等人,2016a;Ma等人,2017年;Chen等人,2017年)。递归神经网络依次合成隐向量,它不允许对输入进行并行化。在注意层,Softmax归一化还必须等待由相似函数计算的所有对齐分数。因此,它们无法利用高度并行化的现代硬件和库。我们的模型建立在卷积层和门控单元上。每个卷积滤波器分别从每个位置的嵌入向量中计算不同粒度下的n个特征。每个位置的卷积层顶部的门控单元也是相互独立的。因此,该模型更适合并行计算。此外,我们的模型还配备了两种有效的过滤机制:在卷积层和最大池层顶部的门控单元,两者都能准确地生成和选择与aspect相关的情感特征。我们首先简要回顾一下普通CNN的文本分类(Kim,2014)。该模型在许多标准情感分类数据集(Le等人,2017)上取得了最先进的表现。CNN模型由嵌入层、一维卷积层和最大池化层组成。嵌入层采用输入词的索引wi∈{1,2,3...V}并且输出相应的嵌入向量。D表示嵌入向量的维数大小。V是单词词汇表的大小。嵌入层通常通过预先训练的嵌入来初始化,如GloVe(Penington等人,2014年),然后在训练阶段对它们进行微调。一维卷积层用不同宽度的多个卷积核表示输入。每个核对应一个语言特征检测器,它在不同的粒度上提取特定的n-gram模式(Kalchbrenneret al., 2014)。具体地,输入语句通过嵌入层由矩阵表示,其中L是填充句的长度。卷积滤波器将接收字段中的k字映射到单个特征c。当我们在整个句子中滑动过滤器时,我们获得了一系列新的特征。
其中是偏置,f是一个非线性激活函数,如tanh函数,∗表示卷积运算。如果存在相同宽度的滤波器,则输出特征形成矩阵。对于每个卷积滤波器,最大超时池层在生成的卷积特征中取最大值,生成大小等于滤波器数目的固定大小向量。最后,一个Softmax层利用向量来预测输入句子的情感极性。
图1展示了我们的模型架构。
图1:ACSA任务的模型GCAE的说明。一对卷积神经元计算一对门的特征:Tanh门和relu门。relu门接收给定的aspect信息。控制情绪特征的传播。两个门的输出是element-wisely乘以最大池层。
门控Tanh-relu单位(GTRU)与aspect嵌入的GTRU连接在每个t位的两个卷积神经元上。具体来说,我们将特征ci计算为
其中是ACSA中给定aspect类别的嵌入向量,或由另一个CNN计算ATSA中的aspect项的嵌入向量。方程2和3中的两个卷积与vanilla CNN中的卷积相同,但卷积特征接收具有在Relu激活函数的附加方面信息。换句话说,和分别负责生成情感特征和aspect特征。以上最大时间池层生成一个固定大小的向量,保持整个句子最突出的情感特征。最后的全连接层采用softmax函数,利用向量e来预测情感极性。该模型是通过最小化所有数据样本的真实y和预测值之间的交叉熵损失来训练的。
其中i是数据样本的索引,j是情感类的索引。
4、Gating Mechanisms
建议中的门控Tanh-relu单元控制情感信息流向池层的路径。门控机构在LSTM中已被证明是有效的。在基于aspect的情感分析中,不同情感的不同方面出现在一个句子中是非常普遍的。方程2中的relu门在正输入上没有上界,在负输入上有严格的零。因此,它可以根据给定的aspect信息与位置t处的aspect特征之间的相关性来输出相似性评分。如果这个分数为零,情绪特征将在大门被封锁,否则,它的规模将相应地放大。最大时间池进一步删除了情感特征,这是没有意义的整个句子。
在语言建模方面(Dauphin等人,2017年;Kalchbrenner等人,2016年;van den Oord等人,2016年;Gehring等人,2017年),门控单元(GTU)和门控线性单元(GLU)显示了门控机构的有效性。GTU由tanh(X∗W+b)×σ(X∗V+c)表示,其中sigmoid门控制特征用于预测堆叠卷积块中的下一个单词。为了克服GTU的梯度消失问题,GLU采用(X∗W+b)×σ(X∗V+C),使梯度不被缩小,通过许多叠加的卷积层传播。然而,一个只有一个卷积层的神经网络在训练过程中不会遇到梯度消失问题。在文本分类问题上,我们的GTRU比这两个门控单元更有效。
5、GCAE on ATSA
ATSA任务是用来预测句子中的aspect的情感极性。我们只是通过在aspect项上添加一个小的卷积层来扩展GCAE,如图2所示。在ACSA中,控制GTRU情感特征流的aspect信息来自一个aspect的词;在ATSA,这类信息是由一个小型CNN提供的aspect实体。额外的cnn从多个单词中提取重要的特征,同时保留了并行计算的能力。
图2:ATSA任务的GCAE模型说明。它在aspect项上有一个额外的卷积层。
6、Experiments
6.1 Datasets and Experiment Preparation
我们对SemEval研讨会(Pontiki等人,2014年)的公共数据集进行了实验,其中包括对餐馆和笔记本电脑的客户评论。一些现有的工作(Wang等人,2016b;Ma等人,2017;Chen等人,2017)从四个情感标签中删除了“conflict”标签,使他们的结果无法与研讨会报告中的结果相比(Kiritchenko等人,2014年)。我们重新实现了比较方法,并使用了这些引用中描述的超参数设置。
在评测数据中,对于句子中的不同aspect或targets有不同情感标签的句子比标准情感分类基准中的句子更常见。表1中的句子显示了审查员对两个aspect的不同态度:食物和递送。因此,为了更准确地了解模型在复述句中的表现,我们创建了小而困难的数据集,这些数据集是由具有相反或不同情感的句子组成的。在表1中,两个相同但带有不同情感标签的句子都包含在数据集中。如果一个句子有4个aspect targets,这个句子将在数据集中有4个副本,每个副本都与不同的targets和情感标签相关联。
表1:2014年SemEval餐厅评论数据集艰难测试集中的两个例句
对于ACSA任务,我们对SemEval 2014任务4的餐馆评论数据进行了实验。它有五个方aspect:食物、价格、服务、氛围和混乱;四个情感极性:积极、消极、中立和冲突。通过合并2014至2016年三年的餐厅评论,我们获得了一个更大的数据集,名为“Restaurant-Large”。在合并过程中,数据的不兼容性是固定的。我们在2014年数据集中用中性标签替换冲突标签。在2015年和2016年的数据集中,一个句子中可能有多对“aspect实体”和“aspect类别”。对于每个句子,让p表示正面标签的数量减去否定标签的数量。当p>0时,我们给一个句子指定一个正标号,当p<0时给一个负号,如果p=0时给一个中性标号。删除重复项后,统计数据如表2所示。结果数据集包括8个方面:餐厅、食品、饮料、氛围、服务、价格、失误和地点。
表2:ACSA任务的数据集统计。hard数据集仅由与多种情感相关的多个方面标签的句子组成。
对于ATSA任务,我们使用来自SemEval 2014 Task 4的餐馆评论和笔记本电脑评论。在每个数据集上,我们重复每个句子次,这等于关联aspect类别(ACSA)或aspect实体(ATSA)的数量(Ruder等人,2016b,a)。表3显示了数据集的统计数据。
表3:ATSA任务的数据集统计。
hard数据集的大小也如表2所示。测试集的设计是为了衡量一个模型是否能够检测到一个句子中针对不同实体的多个不同的情感极性。没有这个测试集,也许一个全局的情感分类器就足以应对只有一个情感标签的句子了。
在我们的实验中,字嵌入向量是由300维GloVe向量初始化的,这些矢量是根据8400亿token的未标记数据进行预训练的(Penington等人,2014年)。GloVe词汇外的单词被随机初始化为均匀分布U(-0.25,0.25)。我们使用Adagrad(Duchi等人,2011年),批量大小batch size为32个实例,缺省学习率为1e-2,最大epoch为30个。我们只微调早期停止与5倍交叉验证的训练数据集。所有的神经模型都是用PyTorch实现的。
6.2 Compared Methods
6.3 Results and Analysis
6.3.1 ACSA
在SemEval研讨会之后,我们报告了所有竞争模型对餐馆评论测试数据集和hard测试数据集的总体准确性。每个实验重复五次。表4列出了平均值和标准差。
表4:测试集上所有模型的准确性,以及由具有多个情感和多个aspect实体的测试语句组成的子集的准确性。Restaurant-Large数据集是在三年内合并了所有对SemEval车间的餐馆评论而创建的。“*”:支持向量机的结果是从NRC-加拿大检索的(Kiritchenko等人,2014年)。
基于LSTM模型的ATAE-LSTM是所有神经网络中性能最差的。基于aspect的情感分析是提取与给定aspect密切相关的情感信息。从句子提取的信息中分离出aspect信息和情感信息是很重要的。LSTM生成的上下文向量必须同时传递这两种信息。此外,相似度评分函数产生的注意分数是整个上下文向量的注意分数。
与ATAE-LSTM相比,GCAE的性能提高了1.1%至2.5%。首先,我们的模型结合了GTRU,根据上下文向量的每个维度上给定的aspect信息来控制情感信息流。按元素方向的门控机制工作在细粒度上,而不是对其他模型的注意层中的上下文向量的所有维度施加对齐分数。第二,GCAE不是生成一个单一的上下文向量,而是分别生成两个aspect和情感特征的向量,从而对aspect和情感信息进行分解。通过与CNN在hard测试数据集上的性能比较,可以看出GCAE的卷积层能够区分多个实体的情感。
卷积神经网络CNN和GCN不是为基于aspect的情感分析而设计的,但它们的性能超过了ATAE-LSTM。
支持向量机(Kiritchenko等人,2014年)的性能取决于它所能使用的特性的可用性。没有大量的情感词典,支持向量机的性能要比神经方法差。通过多种情感词汇,表现提高了7.6%。这激励我们在未来的神经网络中利用情感词汇。
hard数据集由对不同aspect有不同情感的重复句子组成。不能利用aspect信息的CNN、GCN等模型的性能不理想,但GCAE比其他神经网络模型具有更高的精度。GCAE比ATAE-LSTM在“Restaurant-Large”的精度高4%并且在“SEMEVAL-2014年”的ACSA任务上则高出5%。然而,在原有的餐馆数据集上,不包含aspect建模部分的GCN得分高于GCAE。这表明,当给定句子中只有一个情感标签时,在hard测试数据集上,GCN的表现要好于GCAE。
6.3.2 ATSA
我们将GCAE的扩展版本应用于ATSA任务。在这个任务中,aspect实体在句子中有标记,通常由多个单词组成。在表5中我们比较了IAN(Ma等人,2017年)、RAM(Chen等人,2017年)、TD-LSTM(Tang等人,2016年a)、ATAE-LSTM(Wang等人,2016年b)和我们的GCAE模型。GCAE以外的模型都是基于LSTM和注意机制的。IAN比TD-LSTM和ATAE-LSTM具有更好的性能,因为两个注意层引导上下文和实体的表示学习。RAM还通过将多个注意点与递归神经网络相结合来获得较好的训练精度,但需要更多的训练时间,如下节所示。在hard测试数据集上,GCAE在餐馆数据上的准确率比RAM高1%,在笔记本电脑数据上比RAM高1.7%。GCAE使用小的CNN的aspect实体的输出来指导通过relu门的情感特征的合成。由于门控机制和aspect项上的卷积层,GCAE优于其他神经模型和basic支持向量机。再一次,大规模的情感词汇给支持向量机带来了显著的改进。
表5:2014年SEMEVAL任务4中ATSA子任务的准确性。“*”:支持向量机的结果从NRC-加拿大检索(Kiritchenko等人,2014年)
6.4 Training Time
我们记录所有模型的训练时间,直到在带有1080 TiGPU的台式机上的验证集上收敛为止,如表6所示。基于LSTM的模型比卷积模型需要更多的训练时间。在ATSA任务中,由于IAN和RAM中有多个注意层,他们需要更多的时间来完成培训。与其他神经模型相比,GCAE具有更快的速度,因为与LSTM和注意层相比,无论是卷积运算还是GTRU都没有时间依赖性。因此,硬件和库更容易并行运行。由于支持向量机的性能是从原始论文中提取出来的,所以我们无法比较SVM的训练时间。
表6:在ATSA任务上以秒为单位的收敛时间。
6.5 Gating Mechanisms
在本节中,我们比较了GLU (X ∗ W + b) ×σ(X ∗ Wa + Vva + ba)和GTU tanh(X∗W+b)×σ(X∗Wa +Vva +ba),GCAE中使用的GTRU。表7显示,所有三个门控单元在餐厅数据集上都实现了较高的准确性。GTRU的表现要好于其他的门,它有一个卷积层,通过relu激活函数生成aspect的特征,根据给定的aspect信息控制情绪信号的大小。另一方面,GTU和GLU中的Sigmoid函数具有上界+1,这可能不能有效地提取情感特征。
表7:不同的门控单元对ACSA任务的餐馆评论的准确性。
7 、Visualization
在这一节中,我们以一个具体的复述句为例来说明建议中的GTRU是如何工作的。在其它神经网络中,门生成的权值比其它神经网络中的注意权值更难实现。注意权重得分是单词和向量维度上的一个整体得分,而在我们的模型中,有门输出。因此,我们用一个只有三个字宽的滤波器来训练一个小模型。然后,对每一个字,我们求和Relu门的输出。在规范化之后,我们在图3中绘制每个单词的值。考虑到不同aspect的target,Relu门将控制Tan门输出的大小。
图3:GTRU中relu门的输出
8、Conclusions and Future Work
本文提出了一种适用于ACSA和ATSA任务的具有门控机制的高效卷积神经网络。GTRU可以根据给定的aspect信息有效地控制情感流,两个卷积层分别aspect信息和情感信息进行建模。通过在SemEval数据集上的大量实验,证明了与其它神经模型相比性能的提高。如何在神经网络中利用大规模的情感词汇将是我们未来的工作。
总结:
GCAE主要前向网络的流程如下所示: