原文链接: http://chenhao.space/post/f6969e4.html
文本情感分析又称意见挖掘,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。按照处理文本的粒度不同,情感分析可分为词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次;按照处理文本的类别不同,可分为基于新闻评论的情感分析和基于产品评论的情感分析。文本情感分析可归纳为 3 项主要任务,即情感信息抽取、情感信息分类以及情感信息的检索与归纳。
情感信息抽取是情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元。其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务。
有价值的情感信息单元主要有评价词语(如优秀、好用)、评价对象(如 GPS、屏幕分辨率)、观点持有者(如国家政府、台湾当局)等。某些组合搭配对于情感分析的上层任务如情感信息分类以及情感信息的检索与归纳有更直接的帮助,如评价搭配(评价对象和评价词语的搭配,如屏幕分辨率-高)、评价短语(程度副词及其修饰的评价词语的搭配,如不怎么好)等。
评价词语又称极性词、情感词,特指带有情感倾向性的词语。评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语料库和基于词典两种方法。
基于语料库的评价词语抽取和判别主要是利用大语料库的统计特性,观察一些现象来挖掘语料库中的评价词语并判断极性。基于语料库的方法最大的优点在于简单易行,缺点则在于可利用的评论语料库有限,同时评价词语在大语料库中的分布等现象并不容易归纳。
基于词典的评价词语抽取及判别方法主要是使用词典中的词语之间的词义联系来挖掘评价词语。基于词典的方法的优点在于获取的评价词语的规模非常可观,但是由于很多词存在一词多义现象,构建的情感词典往往含有较多的歧义词。
评价对象是指某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象。他们大多将评价对象限定在名词或名词短语(候选评价对象)的范畴内,进而对它们进行进一步的识别。
一部分学者使用基于规则/模板的方法抽取评价对象。规则的制定通常要基于一系列的语言分析与预处理过程,如词性标注、命名实体识别、句法分析等。相应地,制定的规则也包括词序列规则、词性规则以及句法规则等形式。此类方法最主要的优点在于针对性强,可以直接针对待解决的问题或特定的语言现象制定规则/模板;而其缺点则在于规则/模板的可扩展性差,人工编写的工作量大,成本较高。
有学者从另一个角度诠释了评价对象的抽取,他们将评价对象看作产品属性的一种表现形式。这种方法取得了较好的实验效果,超过了基于规则/模板的方法,但难点在于领域指示词的获取。
有学者采用多粒度的话题模型挖掘产品领域情感文本中的评价对象,并将相似的评价对象进行聚类。这种方法理论上能够提高评价对象抽取的召回率,但遗憾的是,还没有实验将这种方法与上述传统的基于名词短语的方法进行对比。
评论中的观点持有者一般是由命名实体(如人名或机构名)组成,因此可以借助于命名实体识别技术来获取观点持有者。此外,还有学者曾尝试借助语义角色标注来完成观点持有者的抽取。但是这些方法较为依赖自然语言处理的基础技术,有较低的语言覆盖现象和较差的领域适应性。还有人将观点持有者的抽取定义为分类任务,这种方法的关键在于分类器和特征的选取。
以上的方法将观点持有者的抽取当作一个独立的任务。通过观察许多研究者发现,观点持有者一般是与观点同时出现的,所以可以将观点和观点持有者的识别作为一个任务同时解决。
在某些情况下,单独的评价词语存在一定的歧义性,如评 价词语“高”在以下 3 个句子中的使用:
Sen 1:凯越的油耗真高.
Sen 2:捷达的性价比相当高.
Sen 3:这辆车有 1 米多高.
评价词语“高”在修饰不同的评价对象时表现出不同的极性。因此,仅考虑单独的 评价词语在情感分析中的应用是远远不够的。研究者们发现,有些包含评价词语的“组合评价单元”(如组合“油耗-高”、“相当-高”)对于处理情感分析的上层任务更有帮助。
主观表达式(subjective clues)是指表示情感文本单元主观性的词语或词组。评价词语是主观表达式的一部分。此外,某些词语的组合(如 village idiot 或 get out of here)也能很明显地标识文本的主观性,虽然它们中的任何一个词语单独可能都并非评价词语。如何获取这些有意义的词组是主观表达式抽取的重点。
评价短语表现为一组连续出现的词组,但不同于主观表达式,该词组往往是由程度副词和评价词语组合而成,如“very good”等。因此,这种组合评价单元不仅顾及了主观表达式的情感极性,还考察了其修饰成分。这些修饰成分或加强或减弱或置反了主观表达式的情感极性,使得评价短语成为一种情感色彩丰富的组合评价单元。
评价搭配是指评价词语及其所修饰的评价对象二者的搭配,表现为二元对〈评价对象,评价词语〉,如情感句 “凯越的油耗很高”中的“油耗-高”。情感句中出现的某些“主观表达式”和“评价短语”并非真正地表现出情感极性。如情感句 “车跑 得好快啊” 中的词语“好”并不存在情感极性,需要过滤掉。此外,还有一些“主观表达式”和“评价短语”存在一定的歧义,其极性需要根据上下文而确定。“评价搭配”则可以很好地解决上述两点问题。
由于情感文本中夹杂着少量的客观信息而影响了情感分析的质量,因此将情感文本中的主观信息和客观信息进行分离变得非常必要。在很多情况下,情感文本的主客观识别比主观文本的情感分类更有难度。
一部分学者通过考察文本内部是否含有情感知识来完成主客观信息分类。然而我们发现,许多客观句中也可能会包含评价词语。为了在更大程度上消除歧义性,很多学者挖掘并使用情感文本中的组合评价单元。此外,还有学者构建情感模板识别情感文本的 主客观性。以上这些基于情感知识的主客观分类方法的工作重心在于情感文本中情感知识的挖掘以及各种情感知识融合的方法研究。
还有一部分学者将情感文本单元的主客观分类定义为一种二元分类任务,即对任意给定的情感文本单元,由分类器协助判断其主客观性。这种方法的关键在于分类器和分类特征的选取。基于特征分类的方法目前还是主客观信息分类的主流方法。这种方法定义明确,其根本问题在于特征的选取。因此,尝试使用更深层、更复杂的分类特征也许是这类方法的突破方向之所在。
主观信息情感任务按不同的文本粒度可分为词语级、短语级、句子级和篇章级等。一般而言,研究者将主观本文的极性分为褒义和贬义两类(thumbs up? thumbs down?)。
两种研究思路:基于情感知识的方法以及基于特征分类的方法。相似地,前者主要是依靠一些已有的情感词典或领域词典以及主观文本中带有情感极性的组合评价单元进行计算,来获取主观文本的极性。后者主要是使用机器学习的方法,选取大量有意义的特征来完成分类任务。
情感分析技术与用户的交互主要集中于情感信息检索和情感信息归纳两项任务上。其中,情感信息检索旨在为用户检索出主题相关,且包含情感信息的文档;情感信息归纳则针对大量主题相关的情感文档,自动分析和归纳整理出情感分析结果提供给用户参考,以节省用户翻阅相关文档的时间。
情感信息检索要求检索回的文档同时满足两项准则: (1) 主题相关;(2) 具有情感倾向性。
情感信息的归纳往往以情感文摘的形式存在。传统的基于事实性新闻语料的文摘旨在提取重要的事实性信息,并去除冗余信息。相比而言,情感文摘的处理对象为某一产品或某一事件的大量用户评论,因此这种文摘融入了更多的情感信息。它主要侧重于提取具有明显情感倾向性的主观信息,是对某一产品或某一事件的评论信息的归纳和汇总。针对产品类评论信息,情感文摘共有两种呈现方式:一种是基于产品属性的情感文摘,另一种是基于情感标签的情感文摘。