转载: Aspect Based Sentiment Analysis总结(一)——任务和数据
https://zhuanlan.zhihu.com/p/81513782
基于方面的情感分析(Aspect Based Sentiment Analysis, ABSA)[1]是一种细粒度的情感分析任务,旨在识别一条句子中一个指定方面(Aspect)的情感极性。一个句子中可能含有多个不同的方面,每个方面的情感极性可能不同。基于方面的情感分析有很多实际应用价值,如针对商品评论的基于方面的情感分析可以提取用户对一个商品不同部分/方面的评价,为厂商进一步改进商品提供更细粒度的参考。
基于方面的情感分析(ABSA)中的方面(Aspect)可以指显式出现在句子中的一个实体(Target, Aspect term)或者隐式表达的一个描述事物的角度(Aspect category)。
一个Aspect term是句子中的一个词或词组,如上图中的decor和food。句子中针对decor和food这两个Aspect term的情感是不同的,Aspect Term Sentiment Analysis (ATSA)作为ABSA的一个子任务,目的是识别句子中一个指定Aspect term的情感极性,可以建模为一个分类问题。
一个Aspect category是句子中隐式表达的描述事物的一个预先定义的角度。如上图中的句子从ambience和food这两个角度来描述一个餐馆。Aspect category来自一个预先定义好的集合,其不必显式地出现在句子中。Aspect Category Sentiment Analysis (ACSA)作为ABSA的另一个子任务,目的是识别句子中一个指定Aspect category的情感极性,也可以建模为一个分类问题。
另外两个ABSA的子任务分别是Aspect Term Extraction和Aspect Category Extraction。
Aspect Term Extraction旨在抽取出一个句子中的Aspect term,可以建模为一个序列标注问题。
Aspect Category Extraction旨在识别出一个句子中从哪些预先定义好的Aspect category角度描述事物,可以建模为一个多标签分类问题(multi-label classification)。
目前绝大多数发表在ACL,EMNLP和NAACL上的ABSA相关论文实验中使用的数据集是SemEval 14 Restaurant/Laptop Review数据集和Twitter数据集。此外,最近公开的MAMS数据集也可以用来做ABSA任务。
SemEval 14 Restaurant Review数据集中包含ATSA和ACSA两种版本,共有四千多条数据,分为训练集和测试集。ATSA的数据集也可以用来做Aspect Term Extraction,ACSA的数据集也可以用来做Aspect Category Extraction。
SemEval 14 Laptop Review数据集中只有ATSA版本,共有三千多条数据,也分为训练集和测试集。Laptop数据集相比Restaurant数据集有更多隐式表达情感的样本,数据量更少,难度更大。
Twitter数据集[2]中只有ATSA版本,共有六千多条数据,分为训练集和测试集。Twitter数据集相比Restaurant数据集和Laptop数据集质量较低。
MAMS数据集中包含ATSA和ACSA两种版本,共有一万多条数据。MAMS的特点是,一个句子中一定包含至少两个Aspect,并且同一个句子中至少有两个Aspect情感极性是不同的。而Restaurant,Laptop和Twitter这三个数据集中,大多数句子只包含一个Aspect或者包含多个相同情感的Aspect,这样会造成基于方面的情感分析任务退化成句子级别的情感分析任务。
基于方面的情感分析除了4个子任务外还有两个变种。
一个是Targeted Aspect Based Sentiment Analysis,结合了ATSA和ACSA,旨在识别句子中针对一个指定实体(Target, Aspect term)的一个指定方面(Aspect category)的情感。数据集使用的是SentiHood数据集[3]。
另一个是抽取句子中和一个指定实体相关的情感词Target-oriented Opinion Words Extraction,使用的是TOWE数据集[4]。
[1] Task Description: Aspect Based Sentiment Analysis (ABSA).
[2] Adaptive Recursive Neural Network for Target-dependent Twitter Sentiment Classification. ACL 2014.
[3] Sentihood: Targeted aspect based sentiment analysis dataset for urban neighbourhoods. COLING 2016.
[4] Target-oriented Opinion Words Extraction with Target-fused Neural Sequence Labeling. NACCL 2019.