摘要:文本情感分析:又称意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网(如博客和论坛以及社会服务网络如大众点评)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。本文主要简述情感分析中的情感信息抽取,及文本粒度由大到小分别对情感分析方法进行对比和总结。
1引言
情感分析或意见挖掘是人们的观点,情绪,评估对诸如产品,服务,组织等实体的态度。该领域的发展和快速起步得益于网络上的社交媒体,例如产品评论,论坛讨论,微博,微信的快速发展,因为这是人类历史上第一次有如此巨大数字量的形式记录[1]。自2000年初以来,情绪分析已经成长为自然语言处理(NLP)中最活跃的研究领域之一。也是在数据挖掘,Web挖掘,文本挖掘和信息检索方面有广泛的研究。事实上,它已经从计算机科学蔓延到管理科学和社会科学,如市场营销,金融,政治学,通讯,医疗科学,甚至是历史,由于其重要的商业性引发整个社会的共同关注。这种扩散是由于意见是事实的中心,几乎所有的人类活动,在相当程度上,很在意在别人怎么看。出于这个原因,无论何时我们需要做出决定,我们都会经常寻找别人的意见。这不仅是对企业而言对个人也是如此。
如今,如果一个人想购买消费产品,其不再局限于问一个人的朋友和家人的意见,因为有很多用户评论和对产品讨论在网络上的公共论坛,我们可以在评论中找出我们想知道的问题,可能还会有令人意想不到的收获。对于一个组织,它可能不再需要进行调查,民意调查和重点人群,以收集公众的意见,因为有丰盈
这样的信息公开。近年来,我们目睹了那些帖子通过社交媒体重塑企业形象,讨论明星生活,左右公众的情绪和情感,其中有深刻地影响我们的社会和政治制度,这样的帖子还动员群众政治的变化。当我们在感叹人言可畏的同时,我们也不得不承认社交网络的快速发展带来的巨大的道德问题。由此情感分析孕育而生,我们可以通过情感分析或者是舆情系统来帮助政府监控群众的情感变化或者是舆论趋势,来避免发生恶性事件或者是虚假事件的发生。
2情感分析概述
按照处理文本的粒度不同,情感分析大致可分为词语级、句子级、篇章级三个研究层次。
2.1篇章级
篇章级别的情感分类是指定一个整体的情绪方向/极性,即确定该文章(例如,完整的在线评论)是否传达总体正面或负面的意见。在这种背景下,这是一个二元分类任务。它也可以是回归任务,例如,从1到5星的审查推断的总体评分。也可以认为这是一次5级分类任务。
我们可以将自然语言处理技术与模糊逻辑技术相结合,基于手动创建的模糊情感词典,对新闻故事和电影评论进行情感分析。定义情感种类,在模糊情感词典中标注情感类别及其强度。每个词语可以属于多个情感类别。在实验中,可以对比采用词频、与长度相关的特征、语义倾向、情感PMI—IR、强调词和特殊符号等不同特征时的结果。最后对文章的主动性/被动性和积极/消极性进行了判断。
2.2句子级
由于句子的情感分析离不开构成句子的词语的情感,其方法划分为三大类:(1)基于知识库的分析方法;(2)基于网络的分析方法;(3)基于语料库的分析方法[2]。
我们在对文本信息中句子的情感进行识别时,通常创建的情感数据库会包含一些情感符号、缩写、情感词、修饰词等等。我们在具体的实验中会定义几种情感(生气、憎恨、害怕、内疚、感兴趣、高兴、悲伤等),对句子标注其中一种情感类别及其强度值来实现对句子的情感分类。
2.3词语级
词语的情感是句子或篇章级情感分析的基础。早期的文本情感分析主要集中在对文本正负极性的判断。词语的情感分析方法主要可归纳为三类:(1)基于词典的分析方法;(2)基于网络的分析方法;(3)基于语料库的分析方法。
基于词典的分析方法利用词典中的近义、反义关系以及词典的结构层次,计算词语与正、负极性种子词汇之间的语义相似度,根据语义的远近对词语的情感进行分类。
基于网络的分析方法利用万维网的搜索引擎获取查询的统计信息,计算词语与正、负极性种子词汇之间的语义关联度,从而对词语的情感进行分类。
基于语料库的分析方法,运用机器学习的相关技术对词语的情感进行分类。机器学习的方法通常需要先让分类模型学习训练数据中的规律,然后用训练好的模型对测试数据进行预测。
3情感信息的抽取
情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元,情感信息抽取可提炼出对情感分析有贡献的词或短语元素,其结果对特征降维、提高系统性能有重要作用,常用的统计分析方法有基于信息增益、互信息、期望交差熵、词频、文档频次等[3]。
3.1评价词语的抽取和判别
即为评价词语的识别和极性及度量判断,评价词语的抽取和判别往往是一个一体化的工作,主要分为基于语料库和基于词典两种方法。
(1) 基于语料库的评价词语抽取和判别:
主要是利用大语料库的统计特性,观察一些现象来挖掘语料库中的评价词语并判断极性。其最重要的优点在于简单易行,缺点在于评论语料库有限,同时评论词语在大语料库中的分布等现象不易归纳。
(2)基于词典的评价词语抽取及判别方法:
主要是使用词典中的词语之间的词义联系来挖掘评价词,其中难度最大的是词典的更新程度决定词义分析。
评价对象是指某段评论中所讨论的主题, 具体表现为评论文本中评价词语所修饰的对象。传统方法中我们采取基于规则的方法抽取评价对象,规则的制定通常要基于一系列的语言分析与预处理过程,如词性标注、命名实体识别、句法分析等.相应地,制定的规则也包括词序列规则、词性规则以及句法规则等形式[4]。我们可以直接针对待解决的问题制定相应的规则去解决(抽取评价对象),缺点在于人工编写工作量太大,成本较高。
[1]Zhang L, Wang S, Liu B. Deep Learning for Sentiment Analysis : A Survey[J].2018.
[2]Zhai S, Zhongfei (Mark) Zhang. Semisupervised autoencoder for sentimentanalysis. In Proceedings of AAAI Conference on Artificial Intelligence (AAAI2016), 2016.
[3] TanS, Cheng X, Wang Y, et al. Adapting Naive Bayes to Domain Adaptation forSentiment Analysis[C]// Advances in Information Retrieval, European Conferenceon Ir Research, ECIR 2009, Toulouse, France, April 6-9, 2009. Proceedings.DBLP, 2009:337-349.
[4]Zheng S, Wang F, Bao H, et al. Joint Extraction of Entities and Relations Basedon a Novel Tagging Scheme[J]. 2017:1227-1236.
[5] TaoLi Ti Zhang,Vikas Sindhwani.A Non-negative Matrix Tri-factorization Approach toSentiment Classification with Lexical Prior Knowledge.Proceeding ofACL-09,244-252