目录
一、什么是情感分析
二、研究现状及存在问题
1、研究现状
(1). 传统情感分类方法
(2). 短文本情感分类方法
(3). 基于深度学习的方法
2、存在问题
(1). 文化差异
(2).情感词典无法覆盖全部情感词汇
(3). 语义相似不等于情感相似
三、情感分析的应用
情感分析又称倾向性分析或观点挖掘,是一种重要的信息分析处理技术,其研究目的是自动挖掘文本中的立场、观点、看法、情绪和喜恶等。在情感状态的理论研究中,情感状态的主要表示方法有两种:离散类别型表示方法和维度连续型表示方法。
即将情感状态表示分为若干个类别,再通过信息特征进行分类,一般为正负极型(二类别)和多个类别。该表示方法的优势有:1.模型训练难度低、2.准确率较高等优势,但也有一下三点限制:1.分类前必须先自定义类别,自定义类别无法涵盖所有类别,可能会出现没有定义的未知类别;2.类别命名过程中,相同的情感状态可能有不同的类别定义,会造成后续类别无法对应或无法公用的问题;3.更换研究领域时类别情感也必须重新定义,特别是该领域特有的类别。
即将所有情感状态表示在一个低维度的空间(二维或三维),如下图所示:任何句子词汇或文本都可以表示到VA坐标平面内的一个坐标点,表示情感的正负向和激动程度。该表示方法的优点有:1.可以提供更为细致的情感信息、2.不会出现类别定义不完全或类名不一致的情况;缺点是:模型训练难度相对较高。
情感分析一般包含:情感基本单元抽取、情感分类、情绪分析、情感摘要和情感检索等,主要以当前研究最多且相对容易的离散类别型表示方法进行介绍。情感分析的基本流程如下图,具体过程后面的文章介绍:
情感基本单元抽取是情感分析最低层的研究任务,是从情感文本中抽取出有意义的信息单元,然后将计算机难以识别的无结构文本信息转化为容易识别的的结构化文本信息。抽取的信息单元主要包括观点持有者、评价对象(如老师)、属性词(如上课)、情感词(如好)以及情感词的极性判定(给情感词打一个正负标签,如褒义为正,贬义为负)等。
情感分类是情感分析中被最广泛研究的任务,是指对情感文本所体现出的主管看法进行判定,通常分为两类(正面和负面)或三类(正面、负面和中立)。按照不同的粒度可以分为:篇章级、句子级和属性级情感分类。
情绪分析是在情感分类的二分类或三分类的基础上衍生出来的,从心理学的角度出发,将情绪分为:惊喜、愤怒、悲哀、快乐、厌恶、恐惧这六大类情绪(也有的说七大类)。这样的多分类无疑是比之前的二三分类难得,因为有些情感语句会存在歧义,就是表现得在两个情绪之间。当然在机器视觉领域已经有实现通过表情来识别这七大类情绪,效果还是很好的(我也有在学校的机器视觉的课设上实践过)。
情感摘要是在文本摘要技术上衍生而来的,传统的文本摘要技术只提取(或生成)与主题相关的信息,而情感摘要技术不仅要提取(或生成)主题信息,还有提取(或生成)情感信息。与传统文本摘要技术不同的是情感摘要侧重于提取具有明显情感倾向性的主观文本信息。情感摘要一般有两种方式呈现:基于主题的情感摘要和基于情感倾向性的情感摘要。
情感检索是从海量的文本信息中查询文本所蕴含的观点,并根据主题的相关性和观点的倾向性对结果进行排序。情感检索返回的结果需要同时满足主题的相关性和观点的倾向性。
传统情感分类方法主要分为两种:基于情感词典方法和机器学习方法。传统情感分类方法大多利用词袋,那么就有一个忽视了情感词上下文信息的一个缺点。因此有人提出了基于句法分析的情感分类方法(例如基于依存句法分析的分类方法),但也有一些缺点,以依存句法分许为例:1.需要大量的训练数据集、2.大多针对商品评论数据集,对话题广泛、用词灵活、句法结构复杂的文本具有一定的局限性。
这类方法是利用词汇(词组)的情感倾向来判断文本的情感极性,首先通过计算词汇(词组)的褒贬倾向性,再以词汇(词组)为单位,通过对它们的褒贬程度的加权求和等方法,获得整个句子或整个篇章的情感极性。
情感词典的构建方法通常有三种:手工标注法、基于知识库的方法和基于语料库的方法。其中基于知识库的方法主要是借助知识库资源中的概念的解释、之间的关系(反义词、同义词等)等来判断词语的情感极性。基于语料库的方法通常有如下假设:具有相同情感倾向性的情感词容易出现在同一句子中。这类方法通常需要事先手工标注小部分种子情感词,然后通过判定情感词与种子词在语料中的共现关系的强度来估计待判定情感词的情感极性。
该方法需要经过数据预处理、文本表示(特征选择、特征简约、特征权重设置)与分类器训练,最终输出对情感极性的预测。在有监督学习的方法中,可以用标注好的语料来训练情感分类器,可以看成文本分类任务的过程,如果标注文本稀缺或以已标注文本和待标注文本领域不同时,可采用半监督学习或迁移学习等策略
1.特征选择:选取适当的语义单元作为特征,对不同的文档具有较强的区分力。
2.特征简约:去除特征集中不能有效反应类别信息的特征,提高分类效率和准确率。
3.特征权重设置:一般按照特征值是否出现取0/1值,或者按词频信息取TF、TF*IDF值等。
与传统的长文本相比,短文本受词数限制,呈现内容简短、特征稀疏、富含新词和噪音词等特点,这使得传统情感分析方法在短文本上难以保证分析效果。短文本的情感分析主要分为三类:基于内部特征的方法、基于外部知识的方法和基于社会关系的方法。
该方法通常借助文本内的其他特征来增强特征表达,例如表情符号、标点符号等
该方法一般通过丰富的外部知识体系,如百度百科等资源,来扩充短文本中孤立词的语义特征,这是提高文本分析内容的另一途径。比如可以通过维基百科的来源知识库上通过主题模型(LDA)训练主题向量,然后将短文本中的词汇和对应的主题向量一起用于情感分类的过程。
该方法是利用如微博中存在的点赞、关注、转发等交互方式所体现的社交关系来改进短文本情感分类。有实验表明,加入了社会关系之后,情感分类的性能要优于仅仅基于文本的模型(具体是哪篇论文我忘了)。
对于基于深度学习的方法有太多太多,有基础的LSTM,再到seq2seq模型、transformer、Bert预训练加微调、还有GPT模型等。这些模型相对比较复杂,三言两语介绍不清楚,感兴趣的自己再了解了解。
当前研究现状所存在的问题和挑战比较多,例如文化差异、情感词典无法覆盖全部情感词汇和语义相似并不等于情感相似等。
在不同的文化条件下,词汇的情感标注已经被证明是有区别的,不同的语言中词汇的情感标注也是不同的。例如现有的中文情感词典和语料资源翻译成英文后,并不能作为其他英文的情感词典和或语料资源使用,并且一些中文的情感分析方法并不一定适用于英文。
对于中文来说,每年都有新的网络词汇产生,也可以理解为中文的词汇是无穷的,所以情感词典无法覆盖全部情感词汇,总会有新的情感词汇产生。
现有的文本、句子层次的情感分析基本上使用词嵌入作为模型特征,但是词嵌入包含的是语义信息,有时候相似的语义信息可能情感差距很大,比如开心和悲伤,基本上是两个情感相反的词,但是它们的词向量的余弦相似度却不低。