论文-Aspect Level Sentiment Classification with Attention-over-Attention Neural Networks

1. 简称

论文《Aspect Level Sentiment Classification with Attention-over-Attention Neural Networks》，作者Binxuan Huang(Carnegie Mellon University)，简称AOA，经典的方面情感论文(Aspect Sentiment)。

2. 摘要

方面级别的情感分类旨在识别针对给定上下文句子的某些方面表达的情感。在本文中，我们引入了注意力集中注意力（AOA）神经网络用于方面级别的情感分类。我们的方法以联合的方式为方面和句子建模，并明确捕获方面和上下文句子之间的交互。通过AOA模块，我们的模型可以共同学习方面和句子的表示形式，并自动关注句子中的重要部分。我们在笔记本电脑和餐厅数据集上的实验证明，我们的方法优于以前的基于LSTM的体系结构。

3. 引言

与文档级情感分类任务[4,15]不同，方面级情感分类是一种更细粒度的分类任务。它旨在识别其上下文句子中一个特定方面的情感极性（例如，积极，消极，中立）。例如，给定一个句子“很棒的食物，但服务却很糟糕”，“食物”和“服务”方面的情感极性分别为正面和负面。

当一个句子中出现多个方面时，方面情感分类克服了文档级情感分类的一个限制。在我们之前的示例中，有两个方面，并且整个句子的总体情感都带有正极性和负极性。如果忽略方面信息，则很难确定指定目标的极性。这种错误通常出现在一般的情感分类任务中。在最近的一项工作中，Jiang等人.手动评估了Twitter的情感分类器，发现40％的情感分类错误是由于未考虑目标[6]。

已经提出了许多方法来处理方面水平的情感分类。典型的方法是通过监督训练来构建机器学习分类器。在这些基于机器学习的方法中，主要有两种不同的类型。一种是基于手动创建的功能构建分类器[6,26]。另一种类型是基于神经网络的，使用的是端到端训练，没有任何先验知识[11,25,28]。由于能够在不进行特征工程的情况下从数据中学习表示形式，因此神经网络在此任务中变得越来越流行。

由于神经网络的优势，我们基于长短期记忆（LSTM）神经网络解决了这一方面的情感分类问题。以前基于LSTM的方法主要集中于分别对文本建模[23,28]，而我们的方法使用LSTM同时对方面和文本进行建模。此外，由LSTM生成的目标表示和文本表示通过注意力集中（AOA）模块相互交互[2]。 AOA不仅会自动从方面到文本，而且还会从文本到方面产生相互关注。这是因为观察发现，一个句子中只有很少的单词有助于表达一个方面的情绪。很多时候，那些带有情感色彩的词语与各个方面高度相关。在我们之前的示例中，“the appetizers are ok, but the service is slow.”这句话包含“appetizers”和“service”两个方面。根据我们的语言经验，我们知道否定词“slow”更可能描述“service”，而不是“appetizers”。同样，对于方面短语，我们还需要关注最重要的部分。这就是为什么我们选择AOA来处理方面和句子中最重要的部分。与以前的方法相比，我们的模型在SemEval 2014 [17]的笔记本电脑和餐厅数据集上表现更好。

4. 相关工作

情感分类
情感分类旨在检测文本的情感极性。针对该研究问题提出了多种方法[12]。现有的大多数作品都使用机器学习算法以监督方式对文本进行分类。像朴素贝叶斯（Naive Bayes）和支持向量机（SVM）这样的算法已广泛用于此问题[10,15,27]。这些方法大多数依赖于n-gram特征或手动设计的特征。为此，建立了多个情感词典[14,18,22]。
近年来，神经网络已大大促进了情感分类。基于神经网络的方法可自动学习特征表示，而无需进行深入的特征工程。研究人员提出了各种神经网络架构。经典方法包括卷积神经网络[7]，递归神经网络[9,24]，递归神经网络[19,29]。这些方法在情感分析上取得了可喜的结果。

方面水平情感分类
方面级别的情感分类是情感分类的一个分支，其目标是识别句子中一个特定方面的情感极性。一些早期的作品设计了几种基于规则的方面层次情感分类模型，例如[3,13]。 Nasukawa等. 首先对句子执行依存关系分析，然后他们使用预定义的规则来确定有关方面的情感[13]。Jiang等. 通过基于句子的语法结构创建多个与目标相关的特征来改善与目标相关的情感分类[6]。这些与目标相关的功能将与其他内容功能一起馈入SVM分类器。

后来，引入了多种基于神经网络的方法来解决这一方面的情感分类问题。典型的方法基于LSTM神经网络。 TD-LSTM通过开发两个LSTM网络来模拟一个方面目标的左右上下文来解决这个问题[23]。该方法使用这两个LSTM的最后一个隐藏状态来预测情绪。为了更好地捕捉句子中的重要部分，Wang等人. 使用方面术语嵌入来生成注意力向量，以专注于句子的不同部分[28]沿着这些
线，Ma等. 使用两个LSTM网络分别对句子和方面建模[11]。他们进一步使用从句子生成的隐藏状态来通过合并操作计算对方面目标的关注，反之亦然。因此，他们的IAN模型可以同时关注句子和目标中的重要部分。他们的方法类似于我们的方法。但是，合并操作将忽略句子和目标之间的词对之间的交互，并且实验表明我们的方法优于它们的模型。

5. 核心

问题定义
在此方面级别的情感分类问题中，给我们一个句子和一个方面目标。预期目标可以是一个单词或一个长短语。目的是对句子中方面目标的情感极性进行分类。

我们的神经模型的总体架构如图1所示。它主要由四个部分组成：词嵌入，双向长期短期记忆（Bi-LSTM），注意力集中注意力模块和最终预测。

词嵌入
给定句子的长度为，目标的长度为，我们首先将每个单词映射到一个低维实数值向量，称为单词嵌入[1]。对于每个词，我们可以得到一个向量从得出，其中是词汇量，是嵌入维数。嵌入查找操作后，我们得到了两组词向量和分别针对句子和方面短语。

双向LSTM
得到字向量后，我们将这两组字向量馈入两个双向LSTM网络。我们使用这两个Bi-LSTM网络来学习句子和目标中单词的隐藏语义。每个Bi-LSTM通过堆叠两个LSTM网络获得。使用LSTM的优势在于它可以避免梯度消失或爆炸的问题，并且擅长学习长期依赖性[5]。

输入和前向LSTM网络，我们生成一系列的隐藏状态，其中是隐藏状态维度.我们通过将s馈入另一个反向LSTM来生成另一个状态序列反向。在Bi-LSTM网络中，最终输出隐藏状态生成为
连接和后向。我们以相同的方式计算方面目标的隐藏语义状态。

注意力集中注意力
给定文本的隐藏语义表示形式和由
在Bi-LSTM中，我们通过AOA模块计算文本的注意力权重。这是受到AOA在问答中的使用启发[2]。给定目标表示
和句子表示，我们首先计算成对
交互矩阵，其中每个条目的值表示相关性句子和目标词对中的一个词对。使用逐列softmax和逐行 softmax，我们得到了目标到句子的注意力和句子到目标的注意力。之后按列平均，我们得到目标级别的注意力，它指示方面目标中的重要部分。通过等式（7）给出的各个目标句关注度的加权和，计算出最终的句子注意度。通过明确考虑每个方面单词的贡献，我们了解了句子中每个单词的重要权重。

最后分类
最终的句子表示形式是句子隐藏语义状态的加权和使用来自AOA模块的句子注意。

我们将此句子表示形式视为最终的分类特征，并将其馈入线性层以将投射到目标类的空间中。

其中和分别是权重矩阵和偏差。在线性层之后，我们使用softmax层来计算朝向方面的具有情感极性的句子的概率：

方面目标的最终预测情感极性只是具有最高概率的标签。我们训练模型以使L2正则化最小化交叉熵损失

其中是指标函数。是L2正则化参数，是LSTM网络和线性层中的一组权重矩阵。我们进一步应用dropout以避免过度拟合，在这里我们随机丢弃LSTM单元的部分输入。

我们使用带有亚当[8]更新规则的小批量随机梯度下降法来最小化模型中权重矩阵和偏差项的损失函数。

6. 实验

数据集
我们在SemEval 2014 Task 4 [26]中针对笔记本电脑和餐厅的两个特定于域的数据集进行了实验。经验丰富的注释者标记了句子的方面术语及其极性。表1列出了按情感极性分类的分布。

超参设置
在实验中，我们首先随机选择20％的训练数据作为验证集来调整超参数。所有权重矩阵都是根据均匀分布随机初始化的，并且所有偏置项均设置为零。 L2正则化系数设置为，丢弃保持率设置为 [20]。词嵌入使用300维Glove向量初始化[16]，并在训练过程中固定。

对于词汇之外的单词，我们从均匀分布中随机初始化它们。 LSTM隐藏状态的维数设置为。Adam优化器的初始学习率为。如果每三个epochs后训练损失都没有减少，我们的学习率就会降低一半。批次大小设置为。

模型比较
我们分别在这两个SemEval数据集上训练和评估模型。我们使用精度指标来衡量性能。为了进一步验证模型的性能，我们将其与几种基准方法进行了比较。我们将它们列出如下：

Majority 是一种基本的基线方法，该方法将训练集中最大的情感极性分配给测试集中的每个样本。
LSTM 使用一个LSTM网络对句子进行建模，最后的隐藏状态用作最终分类的句子表示。
TD-LSTM 使用两个LSTM网络来建模方面方面前后的上下文。将这两个LSTM网络的最后一个隐藏状态串联起来，以预测情绪极性[23]。
AT-LSTM 首先通过LSTM模型对句子进行建模。然后，它将LSTM中的隐藏状态与方面项嵌入相结合，以生成注意力向量。最后的句子表示形式是隐藏状态的加权总和[28]。
ATAE-LSTM 通过将嵌入方面的内容附加到每个单词向量中，ATAE-LSTM进一步扩展了AT-LSTM [28]。
IAN 使用两个LSTM网络分别对句子和方面术语进行建模。它使用句子中的隐藏状态为目标生成注意力向量，反之亦然。基于这两个注意力向量，它输出用于分类的句子表示和目标表示[11]。

在我们的实现中，我们发现性能随不同的随机初始化而波动，这在训练神经网络中是一个众所周知的问题[21]。因此，我们运行了10次训练算法，并报告了平均准确度以及表2中获得的最佳准确性。所有基线方法在其论文中仅报告了一个最佳编号。平均而言，我们的算法比这些基线方法更好，并且我们训练有素的模型在很大程度上优于它们。

案例分析
在表3中，我们列出了测试集中的五个示例。为了分析哪个词对表情情感极性的贡献最大，我们将表3中的最终句子注意向量可视化。颜色深度表示单词在句子中的重要性，颜色越深更重要。在前两个示例中，“the appetizers are ok, but the service is slow.”这句话包含“appetizers”和“service”两个方面。我们可以观察到，当句子中有两个方面时，我们的模型可以自动指向指示每个方面的单词的正确情感。在第三和第四示例中也发生了同样的事情。在最后一个示例中，方面是短语“boot time.”。从句子内容“boot time is super fast, around any where from 35 seconds to 1 minute,”中，该模型可以学习“time”是该方面最重要的词，从而进一步帮助它找出表示“super fast.”的情感部分。

误差分析
第一类主要错误来自非成分性情感表达，它也出现在先前的著作中[25]。例如，在“it took about 2 1/2 hours to be served our 2 courses,”这句话中，没有对“served”方面表达直接的观点。第二类错误是由句子中使用的习语引起的。例如：“the service was on point - what else you would expect from a ritz?”其中“service”是方面的词。在这种情况下，我们的模型无法理解成语“ on point”所表达的情感。第三个因素是复杂的情绪表达，例如“i have never had a bad meal (or bad service) @ pigalle.”。我们的模型仍然误解了这种复杂表达的含义，即使它可以处理简单的否定之类“definitely not edible”的句子，例如“when the dish arrived it was blazing with green chillis, definitely not edible by a human”。

7. 结论

在本文中，我们提出了一种用于方面层次情感分类的神经网络模型。我们的模型利用Attention-over-Attention模块来学习重要信息方面和句子中的各个部分，从而生成句子的最终表示。与那些基准方法相比，SemEval 2014数据集上的实验显示了我们模型的优越性能。我们的案例研究还表明，我们的模型可以有效地学习句子中以及目标中的重要部分。

在我们的错误分析中，有些情况下我们的模型无法有效处理。一种是复杂的情感表达：一种可能的解决方案是将句子的语法结构合并到分类模型中。另一类错误来自不常见的习语：在未来的工作中，我们想探索如何将先前的语言知识结合到这种神经网络模型中。

8. 重点论文

Bengio, Y., Ducharme, R., Vincent, P., Jauvin, C.: A neural probabilistic language model. Journal of machine learning research 3(Feb), 1137–1155 (2003)
Cui,Y.,Chen,Z.,Wei,S.,Wang,S.,Liu,T.,Hu,G.:Attention-over-attentionneuralnetworks for reading comprehension. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. pp. 593–602 (2017)
Ding,X.,Liu,B.:Theutilityoflinguisticrulesinopinionmining.In:Proceedingsofthe30th annual international ACM SIGIR conference on Research and development in information retrieval. pp. 811–812. ACM (2007)
Glorot, X., Bordes, A., Bengio, Y.: Domain adaptation for large-scale sentiment classifi- cation: A deep learning approach. In: Proceedings of the 28th international conference on machine learning (ICML-11). pp. 513–520 (2011)
Hochreiter, S., Schmidhuber, J.: Long short-term memory. Neural computation 9(8), 1735– 1780 (1997)
Jiang, L., Yu, M., Zhou, M., Liu, X., Zhao, T.: Target-dependent twitter sentiment classifi- cation. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. pp. 151–160. Association for Com- putational Linguistics (2011)
Kim, Y.: Convolutional neural networks for sentence classification. In: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). pp. 1746–1751. Association for Computational Linguistics (2014)
Kingma, D., Ba, J.: Adam: A method for stochastic optimization. In: Proceedings of the 3rd International Conference on Learning Representations (ICLR) (2015)
Lai,S.,Xu,L.,Liu,K.,Zhao,J.:Recurrentconvolutionalneuralnetworksfortextclassifica- tion. In: Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence. vol. 333, pp. 2267–2273 (2015)
Liu, B., Blasch, E., Chen, Y., Shen, D., Chen, G.: Scalable sentiment classification for big data analysis using naive bayes classifier. In: Big Data, 2013 IEEE International Conference on. pp. 99–104. IEEE (2013)
Ma, D., Li, S., Zhang, X., Wang, H.: Interactive attention networks for aspect-level senti- ment classification. In: Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence, IJCAI-17. pp. 4068–4074 (2017)
Medhat, W., Hassan, A., Korashy, H.: Sentiment analysis algorithms and applications: A survey. Ain Shams Engineering Journal 5(4), 1093–1113 (2014)
Nasukawa, T., Yi, J.: Sentiment analysis: Capturing favorability using natural language pro- cessing. In: Proceedings of the 2nd international conference on Knowledge capture. pp. 70– 77. ACM (2003)
Neviarouskaya, A., Prendinger, H., Ishizuka, M.: Sentiful: Generating a reliable lexicon for sentiment analysis. In: Affective Computing and Intelligent Interaction and Workshops, 2009. ACII 2009. 3rd International Conference on. pp. 1–6. IEEE (2009)
Pang, B., Lee, L., Vaithyanathan, S.: Thumbs up?: sentiment classification using machine learning techniques. In: Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. pp. 79–86. Association for Computational Linguis- tics (2002)
Pennington, J., Socher, R., Manning, C.: Glove: Global vectors for word representation. In: Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). pp. 1532–1543 (2014)
Pontiki,M.,Galanis,D.,Papageorgiou,H.,Androutsopoulos,I.,Manandhar,S.,AL-Smadi, M., Al-Ayyoub, M., Zhao, Y., Qin, B., De Clercq, O., et al.: Semeval-2016 task 5: Aspect based sentiment analysis. In: ProWorkshop on Semantic Evaluation (SemEval-2016). pp. 19–30. Association for Computational Linguistics (2016)
Qiu,G.,Liu,B.,Bu,J.,Chen,C.:Expandingdomainsentimentlexiconthroughdoubleprop- agation. In: Proceedings of the 21st International Jont Conference on Artifical Intelligence. vol. 9, pp. 1199–1204 (2009)
Socher, R., Perelygin, A., Wu, J., Chuang, J., Manning, C.D., Ng, A., Potts, C.: Recursive deep models for semantic compositionality over a sentiment treebank. In: Proceedings of the 2013 conference on empirical methods in natural language processing. pp. 1631–1642 (2013)
Srivastava,N.,Hinton,G.,Krizhevsky,A.,Sutskever,I.,Salakhutdinov,R.:Dropout:Asim- ple way to prevent neural networks from overfitting. The Journal of Machine Learning Re- search 15(1), 1929–1958 (2014)
Sutskever, I., Martens, J., Dahl, G., Hinton, G.: On the importance of initialization and mo- mentum in deep learning. In: International conference on machine learning. pp. 1139–1147 (2013)
Taboada, M., Brooke, J., Tofiloski, M., Voll, K., Stede, M.: Lexicon-based methods for sen- timent analysis. Computational linguistics 37(2), 267–307 (2011)
Tang,D.,Qin,B.,Feng,X.,Liu,T.:Effectivelstmsfortarget-dependentsentimentclassifica- tion. In: Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. pp. 3298–3307 (2016)
Tang,D.,Qin,B.,Liu,T.:Documentmodelingwithgatedrecurrentneuralnetworkforsenti- ment classification. In: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. pp. 1422–1432 (2015)
Tang, D., Qin, B., Liu, T.: Aspect level sentiment classification with deep memory network. In: Proceedings of the 2016 Conference on Empirical Methods in Natural Language Process- ing. pp. 214–224 (2016)
Wagner, J., Arora, P., Cortes, S., Barman, U., Bogdanova, D., Foster, J., Tounsi, L.: Dcu: Aspect-based polarity classification for semeval task 4 (2014)
Wang, S., Manning, C.D.: Baselines and bigrams: Simple, good sentiment and topic classi- fication. In: Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2. pp. 90–94. Association for Computational Linguistics (2012)
Wang, Y., Huang, M., Zhu, X., Zhao, L.: Attention-based lstm for aspect-level sentiment classification. In: EMNLP. pp. 606–615 (2016)
Zhu,X.,Sobihani,P.,Guo,H.:Longshort-termmemoryoverrecursivestructures.In:Inter- national Conference on Machine Learning. pp. 1604–1612 (2015)

9. 代码编写

# 后续追加代码分析

参考文献

Huang, B., Ou, Y., & Carley, K. M. (2018). Aspect Level Sentiment Classification with Attention-over-Attention Neural Networks. SBP-BRiMS.