基于aspect的情感分析综述 论文翻译笔记 A Survey on Aspect-Based Sentiment Analysis: Tasks, Methods, and Challenges
原文地址:https://arxiv.org/abs/2203.01054
Abstract
对文本讨论的主体或之某一方面的情感的分析是相当重要的细粒度层次的任务,希望在aspect层面上提取人们的意见和想法、尝试去解析句子中涉及到的“某一方面”的情感
为了在不同的场景中能够完成这样的目标,去分析一些情感元素sentiment elements是非常重要的,主要包括 :
- 方面术语aspect term,
- 方面类别aspect category,
- 意见术语opinion term
- 情感极性sentiment polarity
Introduction有图像形式的直观例子,或可查看Background的详细释义
这篇文章的主要任务有:
- ABSA 的各种任务以及相应的解决方案缺乏系统综述,我们补上了
- 提供了一共新的分类方法,它关注情绪元素的“轴线(axes)”,可以很好地emphasize复合类的ABSA任务的变化和进展
- 总结了ABSA任务中预训练语言模型的使用,它将ABSA的性能提高到了一个新阶
- 以及跨领域或跨语言场景中构建更实用的ABSA系统的技术
1-Introduction
1.1 需求
理解在线用户创造的内容中的观点对很多因工程需都很重要,比如电商评论提取情感。显然每天产生的信息很多,设计自动化计算框架来分析这些隐藏在“非结构性文本”后的情绪是很重要的。这也是sentiment analysis和opinion mining出现的原因
1.2 ABSA定义、与传统的不同
传统的情感分析一般只是分析句子或文档整体的一种sentiment polarity——然而这只能是种假设,一段文本不一定只传递一种情感
ABSA被表达情绪的从整个句子或文档转移到文本中的某个实体entity甚至entity的某个方面aspect,它是一种针对这个方面去尝试概述文本表达的opinion的过程,可以为下游应用程序提供有用的细粒度情绪信息
- 比如电商领域的某个特定商品可以看作这样的实体,它的aspect可以是price这种物体也可以是size这种属性。当然这个entity也可以看做是特殊的、general的aspect
- 进一步来讲“披萨很好吃”这一句话中的情感元素分别是“披萨”、“食物”、“美味”和“积极”
- 其中“披萨”和“美味”在句子中明确表达,“食物”和“积极”属于对应的、预定义的类别和情感集
ABSA是在方面级别构建综合意见摘要的过程,它为下游应用程序提供有用的细粒度情绪信息。
1.3 单ABSA
早期的ABSA希望首先分别识别出句子中的每个情绪元素
- 方面词提取任务aspect term extraction task旨在提取给定文本中提到的所有方面词
- 方面情感分类任务aspect sentiment classification task预测句子中特定方面的极性
我们将这些任务称为单 ABSA 任务。尽管它们确实有一定的效果且很流行,但是只是找到单个情感元素的发现对于理解完整的对于该aspect的意见还远远不够——我们需要提取多个情感元素,且找到它们之间的对应性和依赖性
1.4 复合ABSA
为此,近年来引入了几个新的ABSA任务以及相应的基准数据集,以促进【多元素联合预测】的研究。这些任务被称为复合ABSA任务,与仅涉及单一情感元素的单个ABSA任务不同
例如,方面-意见对提取任务以复合形式提取方面及其相关联的意见项,如(pizza, delicious)
这种方式确实能让机器对文本发表opinion的目标和其对应的表述更清晰——但对这类方式的系统研究非常少,本篇希望做补充
1.5 基于预训练语言模型PLMs
BERT、RoBERTa等预训练语言模型给ABSA任务带来了很大的改进,以PLM为骨干的ABSA模型的泛化能力和鲁棒性都得到了显著的提高
甚至只是BERT+堆叠简单线性分类层都比以前专门为端到端ABSA任务设计的最先进的模型效果更好
尽管基于PLM构建ABSA模型已经变得无处不在,但由于发表的时间较短,现有的文献中并没有对其进行讨论。因此,本文对现有的基于PLM的ABSA模型进行了深入的分析,讨论了它们的优点和局限性
1.6 跨语言或跨域ABSA
当前的ABSA模型训练数据和测试数据来自同一分布(例如,同一领域或同一语言)。当数据分布发生变化时,需要根据从新分布中提取的数据重新训练ABSA model,以保证性能。然而,收集额外的大量标记数据非常难,尤其是对aspect level或者说token level的任务
跨域ABSA和跨语言ABSA就能起到很好的补充作用,为推广到不同领域和语言的ABSA系统提供了一种替代解决方案
在本文中,我们还打算回顾近年来解决跨领域和跨语言ABSA问题的工作,这些工作可以通过克服训练数据的限制而产生更实用的ABSA系统
1.7 对其他ABSA任务的评判和总结
总的来说,本文的主要目的是从现代的角度系统地回顾ABSA问题的进展和挑战
我们为ABSA提供了一种新的分类方法,它从相关情感因素的axes上组织各种ABSA研究,重点放在近年来研究的compound ABSA任务上。沿着这一方向,我们讨论和总结了针对每一项任务提出的各种方法。此外,我们还研究了开发用于ABSA问题的预训练语言模型的潜力和局限性。总结了跨领域、跨语言ABSA的研究成果。最后,我们讨论了一些新的趋势和开放的挑战,旨在揭示该领域潜在的未来方向
2-Background
2.1 四种 情感元素
一般的情感分析问题由两个关键部分组成:目标和情感。目标可以是任何实体或实体的一个方面,而情绪可以是对目标表达的正面/中性/负面意见
被分析的目标概括为aspect category和aspect term(方向的类别和方向的短语、术语);情感包含意见表达opinion term情感词和一个普遍的情感倾向,称之为sentiment polarity
- aspect category
c
- 定义了一个实体的一个独特方面,应该属于一个类别集合c,要预先针对所研究的领域进行定义。例如,食物和服务可以是餐厅领域的方面分类
- aspect term
a
- 是在给定文本中明确出现的意见目标,例如,“the pizza is delicious”一句中的“pizza”
- 当目标被隐式表达,即未在句中直接出现(例如,“定价过高!”)时,我们将aspect术语表示为“null”
- opinion term
o
- 表达意见人对目标的看法的词语,例如“披萨很美味”中的“美味”
- sentiment polarity
p
- 描述情绪在一个方面类别或方面术语上的倾向,通常包括积极、消极和中性
2.2 ABSA定义
基于方面的情感分析(ABSA)是针对某一文本项 识别感兴趣的情感元素 的问题,可以是单个情感元素,也可以是它们之间具有dependency关系的多个元素
我们可以根据所涉及的情绪元素组织各种ABSA研究,可以从输入组织也可以冲从输出
- 根据【所需输出】是single sentiment element or multiple coupled elements,我们可以将ABSA任务分为单个ABSA任务和复合ABSA任务。(根据要几个类别的——比如说同时要category和term就是compound)
- 从这个角度出发,我们为 ABSA 提供了一个新的分类法,该分类法系统地从相关情感元素的轴线组织现有的工作
2.3 模型范式
各种nlp领域常见的范式在ABSA都很常用
每个范式都表示处理特定输入和输出格式的通用计算框架。因此,通过将一项任务制定为特定的格式,可以使用相同的范例来解决多个任务。
除了这四种统一的范式以端到端的方式处理任务外,一些复杂的ABSA任务还可以通过流水线(Pipeline)范式来解决,该范式结合多个模型进行最终预测
2.3.1 Sequence-level Classification (SeqClass)
可以理解为句子级别的任务
模型通常首先将输入文本X馈送到编码器Enc(·)以提取特定于任务的特征,随后是分类器CLS(·)以指示标签Y(Y一般可以表示为one-hot或multi-hot向量)
- 在深度学习时代,编码器Enc(·)可以是卷积网络、循环网络或transformer,用于提取上下文语境特征
- 在某些情况下,输入文本X可能包含多个部分,例如,对于方面情绪分类任务,内容和所涉及的特定的aspect都被视为输入。编码器不仅需要提取有用的特征,还需要捕获输入之间的交互
- 分类器 CLS ()通常实现为一个带有池层的多层感知器,来进行分类
2.3.2 Token-level Classification (TokenClass)
主要是实体识别,去做标签labeling或tagging的工作
为输入文本中的每个token分配一个label
- 首先使用编码器 Enc ()将输入文本编码为语境化特征
- 然后使用解码器 Dec ()来预测标签
2.3.3 Machine Reading Comprehension (MRC)
机器阅读理解,MRC根据给定的query Xq从输入文本X中提取连续文本范围
使用MRC范式的ABSA方法需要为相应的任务构造特定于任务的查询
- 例如,在ATE任务中,我们可以将Xq构造为“aspect term是什么?”
- 然后,模型需要提取aspect term的文本跨度
- 它通过预测文本跨度的起始位置ys和结束位置ye产生结果
2.3.4 Sequence-to-Sequence
句子输入,句子输出,实际上输入和输出维度相同
具有这种范例的经典 NLP 应用程序是机器翻译任务
它也用于解决 ABSA 任务
- 例如,直接生成给定输入句子的标签序列或期望的情感元素
- 以 ATE 任务为例,x 可以是“ The fish dish is fresh”,y 可以是自然语言形式的“ fish dish”
- 它通常采用编解码器模型,例如 Transformer
2.3.5 Pipeline Method
顾名思义,它像流水线一样依次使用【可能不同的建模范式】对【多个模型】以获得最终结果。前一个模型的预测被用作后一个模型的输入,直到产生最终输出
- 如前面提到的【aspect-opinion】对提取问题目的是提取所有的(aspect term, opinion term)
- 因此,一种简单的流水线解决方案是首先提取方面术语,然后为每个预测的方面术语识别相应的opinion
与前面描述的以端到端的方式解决原问题的统一范式相比,流水线方法通常更容易实现,因为每个子问题的解已经存在
但是,它存在错误传播问题,即早期模型产生的错误会传播到后期模型并影响最终的总体性能。
即使是简单的ABSA方法叠加起来负面影响也很大,流水线方法在复合 ABSA 任务中往往表现不佳,尤其是复杂的 ABSA 任务
这是近年来设计一个统一模型来处理复合 ABSA 任务的主要动机
2.4 数据集
讲了每个之间都有哪些标注、哪些突破以及测量方法
3-单ABSA任务
3.1 Aspect Term Extraction(ATE)
Aspect term extraction是ABSA的一项基本任务,旨在提取 给定文本中 显式的被评论的Aspect
例例如,在示例句“披萨很美味,但服务很糟糕”中,应该提取两个方面的术语“披萨”和“服务”
根据训练集是否被标注,ATE方法可分为三种类型:有监督、半监督和无监督方法
有监督
由于所需要的aspect terms通常是句子中的单个词或短语,因此在给定被标记的 ATE 数据后,有监督的 ATE 问题通常被制定为一个token-level的分类任务。因此,提出了基于CRF、RNN和CNN的序列标记方法
由于ATE需要特定领域的知识来识别给定领域中的各个aspects,因此许多研究工作致力于改进单词表征学习word representation learning
- Yin等人利用依赖路径在embedding空间中链接单词,以学习word representation
- Xu等人提出的DE-CNN模型采用了双重嵌入机制,包括通用和特定领域的嵌入
- Xu等人进一步对特定领域的数据进行训练,以获得更好的单词表示。尹等人设计了一种基于位置依赖**position dependency的词嵌入(POD)**来考虑依赖关系和位置上下文语境
不同的特征常常会设计不同的特定网络来提取
- 例如,在sequence labeling framework中对一个aspect及其相应的观点表达之间的关系进行建模,并将任务转化为Seq2Seq问题,以捕获整个句子的整体含义,从而预测具有更丰富上下文语境信息的aspect
半监督
虽然有监督的ATE方法取得了令人满意的结果,但它需要大量的标记数据,特别是在训练非常复杂的神经模型时。因此,ATE任务的一个主要挑战在于缺乏足够的标记数据,这促使了最近的Trendon半监督ATE研究
- 给定一组已标记的ATE数据,以及(相对)较大的未标记数据集(如普通复习句子),数据扩充是产生更多伪标记数据用于训练ATE模型的有效解决方案。已经提出了各种增强策略,例如掩码序列到序列生成、软原型生成和渐进式自训练
无监督
由于标注每个aspect expression都可能非常耗时,因此又对无监督任务进行了广泛的研究
- 在基于神经网络的方法的背景下,He等人提出了一种基于注意力的方面提取(ABAE)自动编码器模型
- 顺着这一方向,罗等人提出了自己的观点。在构建sentence representation时,利用词语语义帮助处理全文及部分文本来提取https://www.ijcai.org/Proceedings/2019/0712.pdf
- Tulkens和van Cranenburgh]提出了一种名为CAt的简单解决方案,他们只使用POS tagger和in-domain words embedding来提取aspect术语:词性标记器首先提取名词作为候选aspect,然后使用对比注意机制来选择aspect
- Shih等人将问题描述为自监督的对比学习任务,以学习更好的aspect representations
3.2 Aspect Category Detection(ACD)
方面类别检测(ACD)是识别给定句子中讨论的方面类别,其中类别一般从给定的预先定义的类别集合里去找,这些类别通常是同一特定领域的
与 ATE 任务相比,ACD 可以从两个方面得到有益的结果:
- ATE 可以预测单个方面的术语,而 ACD 的预测类别往往是多个方面术语的上位词。因此,ACD 的结果可以看作是一个聚合预测,更简洁地表达了opinion targets
- 其次,ACD 能够识别opinion targets,即使它们在句子中没有被明确提及。例如,给出一个句子“它又贵又不好吃”,ACD 可以检测两个方面的类别,即价格和食物,而 ATE 不适用于这种情况
根据注释标签是否可用,ACD可分为监督ACD和非监督ACD。
有监督
有监督的ACD任务通常被描述为一个多标签分类(即,SeqClass)问题,将每个aspect category视为一个标签
- 早期的工作RepLearn训练 在一个有噪声标记的数据集上嵌入单词,并通过不同的前馈网络获得混合特征。然后用这些特征训练Logistic回归模型来进行预测
- 后来的方法进一步利用任务的不同特征来提高效果
- 例如,使用注意机制来关注不同categories 的文本的不同部分
- 考虑词-词共现模式word-word co-occurrence,并且测量句子与每个特定类别中的一组代表性单词之间的text matching情况以预测是否存在类别
无监督
为了以无监督的方式处理 ACD 任务,通常将其分解为两个步骤:
- 提取候选的方面术语aspect term
- 将方面术语映射或聚类到预定义的类别集中的方面类别
- 例如,将“ pizza”和“ pasta”聚类到食物这一aspect category
- 最直接的解决方案是从第一步开始手动为检测到的每个aspect cluster分配一个标签作为aspect category,但这很耗时,而且当检测到的aspects are noisy时可能会导致错误
- 在 CAt 中,句子向量和类别向量之间的余弦距离被计算出来分配类别标签
- 最近,Shi 等人提出了一种高分辨率选择性映射策略来提高映射精度
3.3 Opinion Term Extration(OTE)
观点词提取(OTE)是识别【对某一方面的观点表达为如何】的任务。
opinion term是针对aspect term的,仅提取意见术语而不考虑其相关联的aspect是没有意义的。因此,现有的大多数OTE作品也涉及到方面术语。根据aspect term是作为输入还是作为输出,OTE可以分为两个任务:
aspect-opinion共抽取(AOCE)
- 方面意见协同提取尝试将方面和意见词语结合起来进行预测
- 还是说披萨的例子,AOCE 的目标输出是两个方面术语“ pizza”和“ service”及两个意见术语“ delicious”和“ terrible”
- 请注意,虽然涉及两个情绪元素,AOCE 仍然是一个单一的 ABSA 任务,因为【两个情绪元素之间具有依赖关系(例如,“ delicious”用于描述“ pizza”)没有被考虑】
- 通常,它是用两个标签集分别提取方面和观点术语 ,或者用一个统一的标签集(例如,{ B-A,I-A,B-O,I-O,N }标记这是一个aspect或opinion term的beginning还是inside,或者【都不是(n)】表示同时提取两个观点要素
- 考虑到方面与意见之间的密切关系,AOCE 的主要研究问题是如何对这种依赖关系进行建模
- 为了捕捉aspect-opinion dependency,已经开发了各种模型,包括基于dependency-tree的模型 ,基于注意力的模型,以及考虑语法结构的模型。
target-otiented word extraction面向目标的观点词提取(TOWE)
- target-otiented的word extraction则是尝试 对特定的方面术语提取相应的意见词
- TOWE 也经常被表述为面向输入句子的 TokenClass 问题,而主要的研究问题是如何对输入句子中的aspect-specific representation进行建模,以提取相应的opinion
- Fan 等人提出了一个叫做 IOG 的神经模型,通过内向外向的 LSTM 合并方面信息来生成方面融合的上下文语境
- 后来的方法从几个方面提高了提取的准确性:
- Wu 等人利用通用情感分析数据集来传递潜在的意见知识来处理主要的 TOWE 任务
- Veyseh 等人利用了句法结构,例如对方面的依存关系树距离,来帮助识别意见术语
- Mensah 等人实证地评估了基于不同文本编码器的位置嵌入的重要性,发现基于 bilstm 的方法有一个适合 TOWE 任务的归纳偏差,并且使用 GCN 显式地考虑结构信息只带来很小的收益
3.4 Aspect Sentiment Classification
Aspect sentiment classification,旨在预测对特定aspect的情感极性
通常,aspect属性可以分为方面术语或方面类别,产生两个 ASC 问题:
虽然如前文所说,它们的提取方式可能有所区别(例如,方面术语一般来自句子,有位置信息可以利用),但:
- 这两者通常都被转换为一个 SeqClass 问题
- 对这两种语境的研究主要问题相同:如何恰当地解释方面(词/类)和句子语境之间的关系来帮助对情感进行分类
事实上,有些工作同时考虑这两个子任务,并用同样的模型无缝地处理它们。因此,我们在本节中没有具体区分这两个子任务,而是【使用“ aspect”来指方面术语或方面类别】
普通方式
早期的ASC系统通常基于人为设置的features,比如词频
深度学习带来了很大性能改变。我们主要总结研究进展,强调最新进展
- 为了模拟aspect和感觉语境之间的相互作用,TC-LSTM等开创性神经模型采用了相对简单的策略,如简化策略,将aspect信息与句子语境融合——句子的不同部分对于aspect来说起到不同作用、可以协作判断
- Wang等人提出的一个具有代表性的工作是基于注意的方面嵌入LSTM(ATAE-LSTM)模型,该模型将aspect embedding附加到输入句子的每个 Word vector 上,以计算注意权重,并相应地计算特定于方面的句子嵌入,从而对情绪进行分类
后来的方法设计了更复杂的注意机制来学习更好的aspect-specific representations
- 以IAN以interactively方式学习aspect和句子中的注意,并分别为它们生成representation
- 除了LSTM网络,还探索了其他支持注意机制的网络结构,包括基于CNN的网络、记忆网络和门控网络
最近,预先训练的语言模型已经成为ASC任务的主流构建块
- 例如,Sun等人通过构造辅助句将ASC任务转化为句子对的分类问题,这可以更好地利用BERT的句子对建模能力
考虑结构
ASC的另一项研究是显式地对句子的句法结构进行建模以进行预测——aspect及对应的opinion之间的结构关系通常表明其情感取向。事实上,早期基于机器学习的ASC系统已经将 mined syntactic trees句法树 作为分类的特征。
然而,由于分析依存关系本身就是一项具有挑战性的NLP任务,所以具有不精确的parsers的ASC方法在当时没有显示出比其他方法明显的优势。不过近年来,由于基于神经网络的依赖解析技术的改进,更精确的解析树为基于依赖的ASC模型带来了显著的改进
- SUN和zhang使用图形神经网络(GNN)对依赖树进行建模,以利用句法信息和单词依赖。按照这个方向,人们提出了各种基于GNN的方法来明确利用句法信息
- 除了句子内部的句法结构,还可以考虑其他结构信息。Ruder等人建立了(对同一目标)多个不同评论文本之间的关系模型,假设它们相互构建、阐述,且情绪也相互关联
- 类似的,Chen等人考虑整个文档级别的情感偏好以充分利用现有数据中的信息
4-联合ABSA 任务
通常,联合任务可以被视为前面提到的单个 ABSA 任务的集成任务,详细的任务分类和代表性的方法如图2底部的分支所示
这些复合任务的目标不仅是完成提取多个情感元素这个结果,而且还想耦合他们、一起考虑——可以预测一对甚至三个、四个元素。毕竟这四个情感要素之间的相互依存关系,提供一个综合的解决方案会是一个很有前途的方向
4.1 方面-意见对提取Aspect-Opinion Pair Extraction (AOPE)
方面术语和观点术语的提取对于ABSA系统至关重要。对第3.3节中讨论的aspect opinion co-extraction(AOCE)任务的研究经常发现,联合提取可以加强对任一元素的提取效果
但是AOCE任务的输出包含两个独立的集合:一个方面集合和一个观点集合而对应关系被忽略。这就促进了方面-意见对提取的研究:目的是将方面词和意见词成对提取,从而提供一个清晰的意见目标图和相应的意见表达式
为了解决 aspect-opinion pair extraction问题,可以采用流水线方法将其分解为多个子任务,并通过流水线将它们一起获得方面-意见对
- 一种解决方案是首先进行 AOCE 任务获取方面和意见集,然后利用分类模型对潜在方面和意见词进行配对,即对一个方面-意见配对是否有效进行分类
- 另一种方法是首先提取aspect**(即 ATE 任务),然后为每个预测的方面术语识别相应的意见术语(即 TOWE 任务)**
- 高等人采用 以MRC 范式为基础的第二种方法,他们首先使用 MRC 模型提取所有的方面术语,然后针对每个提取的方面术语,为另一个 MRC 模型构造一个问题来识别相应意见术语的文本跨度
4.2 端到端的ABSA End-to-End ABSA (E2E-ABSA)
定义
给定一个句子,端到端 ABSA 的任务是从输入直接同时提取aspect term及其对应的情感极性,即提取(a,p)配对输出
它可以自然地分解为两个子任务,即ATE和ASC。确实可以用流水线方法按顺序执行它们,但是检测aspect boundary和分类情感极性的过程往往相互强化
- 以“我喜欢披萨”句子为例,上下文信息“喜欢”表示积极的情绪,也意味着下面的词“披萨”是意见目标
受到这种观察的启发,人们提出了许多方法来以端到端的方式处理这个问题,而非流水线顺序操作
联合与统一
这些端到端的方法一般可以分为两种类型,如表3所示:
- 第一种 "联合 "方法通过在多任务学习框架内对两个子任务进行联合训练,利用它们之间的关系,采用两个标签集,包括方面边界标签(第一行)和情感标签(第二行)来预测两类情感元素。然后,最终的预测是由两个子任务的输出组合得出的
- 另一种类型的方法摒弃了这两个子任务的界限,采用 “统一”(也称为折叠)标签方案来表示每个标记的标签的两种情感元素
从表3可以看到,每个token现在其实有两种标签
- 第一部分 { B, I, E, S, O }表示aspect的位置和边界
- 第二部分{POS , NEG, NEU}是相应标记的情感极性
- 例如,B-NEG指的是一个aspect的开始,其情感是负面的
通过使用折叠标签方案,E2E-ABSA任务可以通过标准的序列标签器standard sequence tagger用TokenClass范式来解决
无论采用哪种类型的方法,一些ideas往往是共享的,并经常出现在不同的模型中
- 例如,考虑aspect边界和情感极性之间的关系已被证明是一个重要因素。由于观点术语为方面术语的出现位置和情感的取向提供了指示性的线索,观点术语的提取通常被视为E2E-ABSA的一个辅助任务
- Chen和Qian提出的关系感知协作学习(relation-aware collaborative learning)框架明确地将三个任务的互动关系用关系传播机制来协调这些任务
- Liang等人进一步设计了一个routing算法来改善这些任务之间的知识转移。文档级别的情感信息也被用来为模型配备粗粒度的情感知识,以便更好地进行情感极性分类
now
关于这三种解决E2E-ABSA的方法(即流水线法、联合法和统一法),目前还不清楚哪种方法最合适
- 早期的工作如发现流水线法表现更好,但Li等人的研究表明,使用定制的神经模型与统一的标签方案可以得到最好的性能
- 后来,Li等人进一步验证了使用一个简单的线性层堆叠在预训练的BERT模型之上,并采用统一的标签方案,可以取得很好的效果,而无需复杂的模型设
- 最近,基于pipeline、unified或joint 方法的研究工作都获得了良好的性能。
4.3 方面类别情感分析 Aspect Category Sentiment Analysis(ACSA)
方面类别情感分析(ACSA)联合检测文字中的方面类别aspect categories及其对应的情感极性opinion polarities
例如,对于TABLE 2中的例子,ACSA模型被用来预测两个 categories - sentiment 对(food - POS)和(survice - NEG)
尽管ACSA与E2E-ABSA相似(只有opinion target的格式不同),但无论是隐藏的还是明确提到的方面ACSA都可以找到,因此被广泛使用
解决ACSA最直接的方法是流水线方法:首先检测提到的方面类别(即ACD任务),然后预测其情感极性(即ASC任务)
然而,对句子中出现的aspect categories的subset的检测是不容易的【见3.2】
第一步的误差会对后面的预测产生影响,此外,这两个步骤之间是可以构建联系的(且效果会更好),这被忽略了
事实上,在多任务学习框架下执行这两个任务,已经显示出对每个独立的任务都有好处。
一些研究已经开始以unified way、以统一的方法处理ACSA任务。从本质上讲,ACD任务是一个多标签分类问题(将每个category视为一个标签),而ASC任务是一个multi-class问题(每个情感极性是一个类别)。针对每个检测到的aspect类别
如图5所示,现有的ACSA的统一方法可以大致分为四种类型
- 笛卡尔积法
- 笛卡尔乘积法通过笛卡尔乘积来列举 category-sentiment 对的所有可能组合。然后,分类器将句子和某一特定的类别-情绪对作为输入,预测是一个二进制值,表示这样的一对是否成立。然而它的训练集会大得夸张,大大增加了计算成本
- 穷举呗
- 加一维法
- 另一个解决方案是在预测方面的类别时增加一个额外的维度。以前,对于每个方面的类别,我们预测其情感极性,通常有三种可能性:正面、负面和中性。Schmitt等人增加了一个名为"N/A"的维度,表示该类别是否出现在句子中,从而以一种统一的方式处理ACSA
- at三元组
- 层次分类法
- Cai等人提出了一种层次分类方法来处理ACSA:层次图卷积网络(Hier-GCN)。首先识别aspect categories,然后jointly predicts联合预测每个识别的类别的情感。因此,【aspect类别之间的内部关系inner-relationship】和【不同aspect和对应情感间的相互关系】可以被找到
- 相似的(哪相似了),Li等人利用共享情感预测层shared sentiment prediction layer来分享不同方面类别的sentiment knowledge,以缓解数据不足的问题。
- Seq2Seq建模法
- 最近,Liuetal采用Seq2Seq建模范式来解决这个问题基于预先训练的生成模型,他们使用自然语言句子来表示所需的输出(见figure5(4)),其性能优于以前的分类类型模型;且这种范式可以更好地利用之前训练好的知识,在zero-shot情况下有很大的优势
4.4 情感三要素提取aspect sentiment triplet extraction (ASTE)
,它试图从给定的句子中提取 (aspect, opinion, polarity) 三联体,告诉人们opinion的target是什么,它的情绪取向如何,以及为什么表达这样的情绪(通过opinion terms)
一个能够预测意见三联体模型,与之前为个别任务工作的模型相比能找到更完整的情感信息。近年来,ASTE任务吸引了很多人的注意。针对ASTE任务提出了多种框架,我们在图6中展示了不同的范式是如何解决的
- Peng等人首先介绍了ASTE任务,并提出了一个两段式的流水线方法来提取三联体。如图6(a)所示
- 首先执行两个序列标签模型,分别提取aspect及其情感,以及意见术语
- 在第二阶段,利用一个分类器从预测的方面和意见中选出有效的方面-意见对
- 最后构建三联体预测。
- 为了更好地利用多种情感因素之间的关系,人们提出了许多unified method
- Zhang等人提出了一个多任务multi-task学习框架,包括方面术语提取、观点术语提取和情感依赖性解析任务。然后应用启发式规则heuristic rules,从这些子任务的预测结果中找到情感三要素
- 另一个潜在的方向是设计统一的标签方案来一次性提取三联体。Xu等人提出的JET模型 感知位置并标记,比之前的E2E-ABSA任务的统一标记方案多考虑了位置要素【如图6(b)所示】
- 同样,Wu等人将第4.1节中描述的AOPE任务的网格标记方案(GTS)扩展到对情感极性进行预测。由于这些方法依赖于词对之间的相互作用,当方面术语或意见术语是多词表达时,它们可能表现得不好
- 受此启发,Xu等人【97】提出了一个跨度级的交互模型,该模型明确考虑了整个方面和意见跨度之间的交互作用,以提高性能
- MRC(见图6(c))
- Mao等人通过设计特定的queries,将原始问题转化为两个MRC任务:第一个MRC模型用于提取方面术语,第二个MRC模型预测相应的观点术语和情感极性
- Chen等人采取了类似的方法,他们使用了一个双向的MRC框架:一个预测方面术语然后预测观点术语,另一个首先预测观点然后预测方面。
- 和Seq2Seq建模(见图6(d))提供了一个优雅的解决方案,可以一次性完成三联体预测
- Zhang等人将原始任务转化为文本生成问题,并提出两种建模范式:用于预测情感三联体的 annotation style and extraction style
- Yan等人和Hsu等人将句子作为输入,将指针索引作为目标。然后,为了预测方面术语(或观点术语),目标变成预测术语的起始索引和结束索引
- Fei等人提出了一种非自回归解码(NAG-ASTE)方法,该方法将ASTE任务建模为一个无序三联体集预测问题
4.5 方面-类别-情绪检测Aspect-Category-Sentiment Detection(ACSD)
尽管在分析方面级情感时,方面类别和方面术语都可以作为意见的目标,但情感往往同时取决于它们俩
为了捕捉这样的双重依赖性,Wan等人提议检测给定句子的所有(方面类别、方面术语、情感极性)三要素(与上面的三要素不同)。他们在(方面类别,情感极性)对的基础上将联合预测任务分成两个子任务,其想法与第4.3节中描述的ACSA任务的"笛卡尔积"相似。
e.g.: 给定一个具有特定方面类别和情感组合的句子,剩下的问题是:对于这样的组合是否存在任何方面术语,如果存在,那么方面术语是什么?
前者可以被表述为一个二进制的SeqClass任务,而后者则成为一个有条件的TokenClass问题。
- 例如,给定句子"比萨饼很好吃"和(食物,正面情绪POS)对,第一个子任务将预先判断这个组合是否存在,序列标签模型应该提取"比萨饼"作为相应的方面术语。
- 然后,一个三联体(食物、POS、比萨)可以作为预测输出。
- 然而,当收到以(服务,POS)对作为输入的相同句子时,第一个子任务应该预测这个组合不存在。总体训练目标可以是这两个子任务的综合损失。
沿着这个方向,Wu等人提出了一个名为MEJD的模型,该模型通过使用句子和特定的方面类别作为输入来处理任务,然后剩下的问题变成了:
- 预测给定类别的情感极性(即SeqClass问题),和
- 如果存在的话,提取相应的方面术语(即,TokenClass问题)
由于特定的方面类别在相关句子中不一定存在,MEJD在SeqClass任务中增加了一个额外的维度"N/A",与第4.3节中介绍的"增加一个维度"方法的想法相似。当分类模型输出"N/A"时,表明在输入中没有与该类别相关的三要素中的其他要素
此外,MEJD还采用了一个带有注意力机制的GCN来捕捉方面和上下文之间的依赖关系。由于一个特定领域的预定义方面类别的数量通常较少,上述方法可以通过结合每个类别的句子作为输入来分解原始ACSD任务。
相反,Zhang等人以Seq2Seq的方式解决这个问题,他们在原始句子中注释其应该表达的情感元素,并将其作为生成模型的目标序列来学习映射关系
Zhang等人进一步设计了一个转述模型,它构建了一个包含所有情感元素的自然语言句子作为序列到序列学习的目标序列
4.6 方面情绪四元预测Aspect Sentiment Quad Prediction (ASQP)
上面讨论的各种复合ABSA任务的主要动机是捕捉更详细的方面级情感信息,可以是成对提取(如AOPE)或三联体提取(如ASTE)的形式
尽管它们在不同的情况下都很有用,但一个能一次性预测全部四个情感元素的模型理应能提供最完整的方面级情感结构,也就是方面情感四元预测(ASQP)
再用一次最早的例子,也就是希望预测得到两个情感四元组。(food
, pizza, POS,美味)和(service
, service, NEG,糟糕)
- Cai等人研究了ASQP任务,强调了implicit aspect或opinion。作者认为隐性的方面或意见在现实世界的场景中经常出现,可以使用"null"在情感四边形中表现它们。他们引入了两个带有情感四元组注释的新数据集,并通过结合现有模型构建了一系列采用流水线方法的baseline
- Zhang等人提出了一个Paraphrase建模策略,以端到端的方式预测情感方块。通过将注释的情感元素与预先建立的模板相结合,并用获得的自然语言句子作为目标序列,他们将原来的四元组预测任务转化为文本生成问题,并通过Seq2Seq建模范式来解决。因此,标签语义(即情感元素的含义)可以得到充分的利用
- 鉴于ASQP任务的重要性,我们期望在未来看到更多的相关研究
5-ABSA与预训练的语言模型ABSA WITH PRE-TRAINED LANGUAGE MODELS
传统的神经ABSA模型通常将预先训练好的词嵌入(如Word2Vec和GloVe)与一个特别设计的特定任务的神经架构结合起来
尽管与早期基于特征的模型相比,它们很有效,但这些模型的改进逐渐达到了瓶颈:
- 与上下文无关的词嵌入不足以捕捉句子中复杂的情感依赖关系
- 现有的ABSA数据集的规模并不支持训练非常复杂的架构
近年来,预训练的语言模型(PLMs),如BERT和RoBERTa已经在广泛的NLP任务上带来了实质性的改进。自然,它们也被引入到进一步提高ABSA问题的性能。
最早并没有修改多少只是简单地引入了来自PLM的上下文嵌入作为单词嵌入的替代。考虑到在预训练阶段学到的大量knowledge,仅仅利用这种上下文嵌入就已经带来了很大的性能提升
例如,Li等人尝试在E2E-ABSA任务中、在PLM之上堆叠几个标准预测层。他们发现,经过PLM预训练、利用最简单的分类层用最简单的线性分类层就可以超过以前精心设计的神经ABSA模型。同样,简单地将给定的句子和一个相关的aspect连接起来作为PLM的输入,并输出句子(例如对应于BERT的[CLS]标记的表示),就达到了ASC任务中最好的结果。此外,作者表明,在领域和任务注释的数据上进一步的后期训练模型可以捕获更好的领域和任务的特定知识,从而导致更好的性能
然而,仅仅采用PLMs作为上下文感知的嵌入层可能是不够的。
从ABSA任务的角度来看,复杂的任务往往不仅需要识别序列或标记级别的标签,还需要识别它们之间的依赖关系,这可能需要更多的设计来充分利用来自PLMs的上下文embedding。
从PLM的角度来看,在预训练阶段学到的丰富知识可能**不会被充分地诱导和利用到相关的ABSA任务中。**为此,很多人都在努力使PLM更好地适应不同的下游ABSA任务
- 早期,Sun等人将ASC转化为一个句子对的分类任务sentence pair classificatio。由于观察到BERT在处理句对分类问题(如问题回答)方面具有优势,他们为每个aspect构建了一个辅助句子,并将原始句子和构建的句子反馈给BERT,取得了比以前的工作更好的性能。
- 根据类似的直觉,Gao等人、Chen等人、Mao等人通过MRC建模范式解决AOPE任务和ASTE任务。通过将原始任务分解为一系列的MRC过程,因此通过查询-回答匹配自然地捕捉到了配对关系
- 另一项工作是利用预先训练的生成模型,如BART和T5来解决各种ABSA任务。通过将原始任务转化为Seq2Seq问题,标签语义(即所需情感元素的含义)可以被适当地纳入
- 除了作为ABSA模型的骨干,PLMs还可以从其他方面对处理ABSA任务有所帮助:例如,在PLMs的预训练阶段使用的语言建模任务常常带来执行生成性数据增强的能力。Li等人将PLMs作为条件文本生成器,并设计了一个掩码-然后预测的策略,为ATE任务生成增强的训练句子
- Hsu等人没有借用外部语言资源,而是利用PLMs以生成方式实现语义保留的增强,在一系列ABSA任务上获得了比基线方法明显的改进。PLM的另一个有趣但在很大程度上被忽视的作用是为基于依赖的ABSA模型提供更好的依赖树
- 正如前几节所讨论的,明确地利用语义关系对许多ABSA任务是有益的,但其性能在很大程度上取决于所采用的依赖树的准确性。作为第一种尝试,Wu等人从PLM中发现依赖性解析树,并以探测方法,并将获得的树输入基于依赖关系的ABSA模型,取得了比使用现成的树的模型更好的ASC结果
- 继他们之后,Dai等人用ASC数据对PLMs进行了微调,注入了情感知识,然后从微调的PLMs中诱导出面向情感的依赖树,这进一步提高了几个最先进的基于依赖的模型的性能
到目前为止,NLP界的共同观点是,PLMs能够准确反映输入词的语义。通过self-attention获得上下文嵌入,捕捉句子中的全部单词依赖关系。不过对于ABSA任务来说,估计是多余的。
事实上,明确指导具有意义结构的PLM表示的进一步转化的作品比使用【CLS】表示进行预测的作品的优越性间接表明了这种冗余的存在。如何用PLM巩固有意义的稀疏结构,或者完善内在的全连接的自我关注,以更有效的方式获得ABSA相关的表征,值得更多的关注和研究工作。
另一方面,基于PLM的ABSA模型的稳健性仍有提高的空间。正如Xing等人【115】所观察到的,即使基于PLM的模型在对抗性例子上明显优于之前的神经模型,它在最简单的ASC任务上仍然有超过25%的性能下降
我们认为,利用PLM来真正理解方面层面的情感,例如,对颠倒的观点和情感的否定具有鲁棒性,而不是学习方面和情感标签之间的虚假关联性,是建立基于PLM的ABSA模型的未来挑战。但是要实现这样的智能还有很长的路要走
6-可迁移的ABSA - TRANSFERABLE ABSA
6.1 跨域ABSA
单一领域内的有监督的ABSA模型已经发展得很好。然而,在涉及多个领域甚至要面对训练时没接触过的文本的真实世界,这些模型很可能无法获得令人满意的预判断
主要原因是不同领域的意见目标所指的aspect通常有很大的不同,而且这些模型可能没有关于未见过的领域中经常使用的术语的先验知识。一个直接的解决方案是为这些领域创建标记的数据,并重新训练额外的领域内模型——考虑到ABSA任务需要细粒度的注释,收集足够数量的标记数据非常难
为了能够以较低的成本进行跨域ABSA预测,采用了跨域适应技术,为ABSA系统在其他领域的推广提供了替代解决方案
粗略地说,这些工作大多可以分为两组:
- 基于特征的转移
- 基于特征的转移的核心思想是为ABSA任务学习与领域无关的表征Jakob和Gurevych以及Chernyshevich通过在跨域ATE任务的CRF标记器中引入跨域不变的丰富的句法特征,来体现这一思想。Wang和Pan设计了一个依赖性边缘预测任务来强制学习句法感知表征syntactic-aware representations,目的是减少词级上的领域转移。其他辅助任务,如领域分类、方面-观点-行动预测和观点术语检测,也被整合起来,以更好地统一不同领域的表示
- 与上述研究不同的是,Chen和Qian简单地汇总了每个词的句法角色,并将句法嵌入作为源域和目标域之间的桥梁,这在很大程度上提高了域适应的效果
- Liang等人假设目标域中有sentence-level的方面类别注释,并提出了一个交互转移网络来捕捉领域不变的category-term的相关性。
- 基于数据的转移
- 与基于特征的传输相比,基于数据的传输旨在调整训练数据的分布,以更好地将ABSA模型推广到目标领域
- Ding等人采用高精度的句法模式high-precision syntactic patterns和一些与域无关的观点术语来创建目标领域的伪标签数据pseudo-labeled。然后,伪标签的目标数据被添加到源域训练集中,以建立跨域的ABSA模型。
- Li等人以类似的方式建立目标域的伪标签数据,并根据伪标签数据对源域训练实例进行重新加权
- Yu等人开发了一个 aspect-constrained(或意见受限opinion-constrained)的masked语言模型,该模型将源域标记的评论the source domain labeled reviews 作为输入,并执行从源域到目标域的aspect术语(意见术语)转换——而非在unlabeled 的目标域去制造有监督信号
- 此外,Gong等人提出了一种从辅助任务中学习的token-level实例重加权策略不变表示法,将基于特征的迁移和基于数据的迁移相结合,以使E2E-ABSA更好地适应跨域任务
- Peregetal和Rietzler等人将PLMs的嵌入作为跨不同领域的ABSA预测的特征,并获得了合理的结果,表明在大规模语料库上预训练的PLMs已经能够提供良好的领域无关的表示
- Xu等人通过不断地用多个相关领域的未标记文本对BERT进行预训练,进一步加强了PLM的领域特异性,极大地提高了BERT在E2E-ABSA任务中的领域泛化能力。这些进展表明,巩固基于特征的转移和基于数据的转移是跨域ABSA的最佳方式,语言模型预训练可以作为一个即插即用的组件引入,以进一步提高领域适应性。
6.2 跨语言的ABSA
现有的ABSA工作大多是在资源丰富的语言上进行的(主要是英语),而在实践中,意见往往是用不同的语言表达的,例如,客户的评论可以用多种语言写。然而,为每种语言标注数据是很耗时的,这就促使了跨语言ABSA(XABSA)的任务。由于跨语言转换的困难,大多数XABSA研究是在简单的ABSA任务是进行的,如跨语言方面术语提取(XATE)、跨语言aspect sentiment分类任务(XASC),以及跨语言的端到端(End-to-End)ABSA等任务。
为了实现跨语言转移,关键问题是要获得目标语言的特定知识
- 早期的方法通常依靠翻译系统来获得这些知识。句子首先被一个现成的翻译系统从源语言翻译到目标语言。然后,标签也同样从源语言投射到目标语言,可以直接投射或使用单词对齐工具,如FastAlign,因为有些ABSA任务(如XATE)需要标记级token-level 注释。因此,可以用获得的(伪)标记的目标语言数据来训练一个ABSA模型
- 因为这类方法的性能在很大程度上依赖于翻译和标签投影的质量,所以已经提出了许多技术来提高数据质量,包括协同训练策略、实例选择或约束性SMT
跨语言的词嵌入在大范围内进行了预训练,平行双语语料库也被用于XABSA——通过共享一个共同的矢量空间,该模型可以以一种语言无关的方式使用
- 例如,Wang和Pan利用一个基于过渡的机制来解决XATE的任务,通过对抗网络将不同语言的表征统一到一个共享空间中。
- Jebbara和Cimiano考虑了具有两种类型的跨语言词嵌入的zero-shot ATE任务。他们发现,从多种源语言转移可以在很大程度上提高性能
最近,受利用单语PLM的成功启发,利用多语PLM(mPLM),如多语BERT和XLM-RoBERTa来处理跨语言NLP任务已成为一种常见的做法
- PLM一般首先在大量的多语言语料库上进行预训练,然后在源语言数据上进行微调,以学习特定的任务知识。最后,它可以直接用于在目标语言测试数据上进行推理(称为zero-shot转移)
- 由于在预训练阶段获得的语言知识,zero-shot转移已被证明是许多跨语言NLP任务的有效方法。然而,在预训练阶段学到的语言知识对于XABSA问题来说可能是不够的。作为补偿,利用翻译后的(伪)标记的目标语言数据可以使模型具备更丰富的目标语言知识
- 例如,Li等人提出了一种热身机制,从每种语言的翻译数据中提炼知识,以提高性能。Zhang等人指出了翻译后的目标语言数据的重要性,并提出了一种无对齐标签投影方法来获得高质量的伪标签目标数据。他们表明,即使在这样的数据上微调mPLMs也能为XABSA任务建立一个强大的基线。
与单语ABSA问题相比,XABSA问题的探索相对不足。虽然现在mPLMs被广泛用于各种跨语言的NLP任务,但探索它们在XABSA中的使用可能是一件棘手的事情,因为特定语言的知识在任何ABSA任务中都起着至关重要的作用。因此,需要更好的mPLMs自适应策略,为模型注入更丰富的目标语知识
另一方面,现有的研究主要集中在相对较容易的ABSA任务上,探索更难的复合ABSA任务的跨语言转移可能实用且具有挑战性
7-挑战和未来方向
在过去的十年中,我们看到了ABSA问题的巨大进展,要么是新任务,要么是新方法。尽管取得了这些进展,但在建立更加智能和强大的ABSA系统方面仍然存在挑战。在这一节中,我们将讨论一些挑战,并提出我们希望能够帮助推进ABSA研究的潜在方向。
7.1 追求更大和更有挑战性的数据集
如第2.4节所述,大多数现有的ABSA数据集derived from the SemEval shared challenges ,为特定任务进行了额外的数据处理和注释。
然而,相对较小的数据规模(如数百个句子)使其难以清楚地比较不同的模型,特别是基于PLM的模型有数百万的参数。目前,通常的做法是用不同的随机种子(通常是5个或10个)来训练模型,并在不同的运行中用平均分来报告模型的性能,但最好是引入更大的数据集来进行更公平和可靠的比较
同时,尽管现有的数据集为比较不同的方法提供了有价值的测试平台,但仍然很有必要提出更具挑战性的数据集来满足现实世界中的场景。例如,包含多领域或多语言评论的数据集可以帮助评估多领域和多语言的ABSA系统
此外,由于用户的意见可以以任何形式表达,我们也期待从不同的意见共享平台收集的数据集,如问题回答平台或客户服务对话
7.2 Multimodal ABSA
大多数现有的ABSA工作集中在分析有意见的文本,如客户评论或推特。然而,用户经常用其他方式分享他们的意见,如图像
由于不同模式的内容往往密切相关,利用这种多模式的信息可以帮助更好地分析用户对不同方面的情绪。最近关于多模态ABSA的研究主要集中在简单的ABSA任务上,如多模态ATE和多模态ASC。为了统一来自不同模式的信息,文本和图像通常首先被编码为特征表示,然后设计一些交互网络来融合信息以进行最终预测
最近,受单模态E2E-ABSA任务(即仅基于文本)的成功启发,Ju等人研究了多模态E2E-ABSA任务,旨在捕捉其在多模态情况下两个子任务之间的联系。他们提出了一种多模态联合学习的方法,通过辅助性的跨模态关系检测来获得所有方面术语和情感极性对。尽管有这些初步的尝试,仍有一些有希望的方向:从任务的角度来看,处理更复杂的任务;从方法的角度来看,应该提出更先进的多模态技术来融合多模态的意见信息,例如,根据多模态的PLMs来构建模型。鉴于多模态ABSA在现实世界的应用中越来越受欢迎,我们相信多模态ABSA会得到更多的关注
7.3 多种任务的统一模式
在介绍各种ABSA任务的过程中,我们可以注意到,一些想法和模型设计不时出现。事实上,一个ABSA任务的解决方案可以很容易地被借用来处理另一个类似的任务,因为这些任务往往是密切相关的。这就自然而然地提出了一个问题:我们能否建立一个统一的模型来同时处理多个(不是全部)ABSA任务?如果是这样的话,就没有必要为每个任务设计特定的模型
这在实践中也是有用的,因为我们可能不想在每次有不同类型的意见注释的新数据时改变模型结构并重新训练它。在第2.3节中,我们表明,如果不同的任务可以被表述为相同的建模范式,就可以通过相同的模型来解决。最近的几项研究证明了沿着这个方向的一些初步尝试。他们或者通过为MRC模型设计特定任务的查询,将任务转化为MRC范式,或者通过直接生成自然语言形式的目标情感元素,转化为Seq2Seq范式。
除了用相同的架构解决多个任务外,Zhang等人进一步发现,如果不同的ABSA任务在相同的建模范式下,特定任务的知识可以很容易地转移(称为跨任务转移)。我们期望更多的研究工作会出现,以实现更多实际有用的ABSA系统。
7.4 Lifelong ABSA
终身学习,也被称为持续学习、顺序学习或增量学习,旨在获取从以前的任务中学习到的知识,并在一连串的任务中调整它以帮助未来的学习。
Chen等人首先从终身学习的角度研究了情感分析,并提出了终身情感分类问题,该问题需要一个模型来处理一系列的情感分类任务。Wang等人将终身学习的思想强加给ASC任务,并提出了一种基于记忆网络的新型终身学习方法
最近的终身情感分析研究开始研究顺序学习过程中的灾难性遗忘问题,而不是简单地将其作为知识积累的跨域情感分析的延伸来研究。然而,现有的研究主要集中在ASC任务的领域增量学习,其中所有的任务共享相同的 固定标签类(例如,正面、负面和中性),而完全不需要任务信息
为了开发更先进的终身ABSA系统,不可避免地需要研究类和任务的增量学习。例如,在不同的应用中,方面的类别是不同的,这就要求有能够适应变化的类别的方法。此外,跨任务转移已被证明在转移知识方面是有效的