情感分析,我研究了也有半年有余了,ACL Anthology上关于情感分析的论文也基本看过了一遍,但是到目前还没有什么成就的。以下是我为一位同学毕业设计写的情感分析方面的综述,引用的论文 基本上是ACL和COLING还有EMNLP上历年关于情感分析的论文,本文应该学术性比较强一点,本文虽不打算发表,但由于将来可能还有用,以及关于学术上的原因,请大家如果要引用请务必标明出处(http://blog.sina.com.cn/s/blog_48f3f8b10100irhl.html )。
概述
情感分析自从 2002 年由 Bo Pang 提出之后,获得了很大程度的研究的,特别是在在线评论的情感倾向性分析上获得了很大的发展,目前基于在线评论文本的情感倾向性分析的准确率最高能达到 90% 以上,但是由于深层情感分析必然涉及到语义的分析,以及文本中情感转移现象的经常出现,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。情感分析还存在的一个问题是尚未存在一个标准的情感测试语料库,虽然 Bo Pang 实验用的电影评论数据集 ( http://www.cs.cornell.edu/people/pabo/movie-review-data/ ) 以及 Theresa Wilson 等建立的 MPQA ( http://www.cs.pitt.edu/mpqa/ )是目前广泛使用的两类情感分析数据集,但是并没有公认的标准加以确认。
目前情感分析的研究基本借鉴文本分类等机器学习的方法,还没有根据自身的特点形成一套独立的研究方法,当然在某种程度上也可以把情感分析看出一种特殊的文 本分类。比较成熟的方法是基于监督学习的机器学习方法,半监督学习和无监督学习目前的研究不是很多,单纯的基于规则的情感分析这两年已很少研究了。既然目 前很多情感分析的研究基于机器学习,那么特征选择就是一个很重要的问题, N 元语法等句法特征是使用最多的一类特征,而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好,所以目前的研究不是很多的。
由于基于监督学习情感分析的研究已经很成熟了,而且在真实世界中由于测试集的数量要远远多于训练集的数量,并且测试集的领域也不像在监督学习中被限制为和 训练集一致,也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的,为了和真实世界相一致,基于半监督学习或弱指导学习的情感分析和跨领域的 情感分析势必是将来的研究趋势之一。
在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视,但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成 功,目前关于这方面的研究以及很少了,但是事实上,语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处,所以将基于语义和规则的情感分析 与基于机器学习的情感分析相结合也将是未来的研究趋势之一。
以下将分别对情感分析的起源,目前基于监督学习,无监督学习,基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。
起源
虽然之前也有一些相关工作,但目前公认的情感分析比较系统的研究工作开始于( Pang et al., 2002 )基于监督学习( supervised learning )方法对电影评论文本进行情感倾向性分类和( Turney,2002 )基于无监督学习( un supervised learning )对文本情感情感倾向性分类的研究。( Pang et al., 2002 )基于文本的 N 元语法( ngram )和词类( POS )等特征分别使用朴素贝叶斯( Naive Bayes ),最大熵( Maximum Entropy )和支持向量机( Support Vector Machine , SVM )将文本情感倾向性分为正向和负向两类,将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。( Turney ,2002 )基于点互信息( Pointwise Mutual Information , PMI )计算文本中抽取的关键词和种子词( excellent,poor )的相似度来对文本的情感倾向性进行判别( SO-PMI 算法)。
在此之后的大部分都是基于( Pang et al., 2002 )的研究。而相对来说,( Turney et al.,2002 )提出的无监督学习的方法虽然在实现上更加简单,但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定,继续在无监督学习方向的研究并不是很多的,但是利用 SO-PMI 算法计算文本情感倾向性的思想却被很多研究者所继承了。
监督学习
目前,基于监督学习的情感分析仍然是主流,除了( Li et al.,2009 )基于非负矩阵三分解( Non-negative Matrix Tri-factorization ),( Abbasi et al.,2008 )基于遗传算法( Genetic Algorithm )的情感分析之外,使用的最多的监督学习算法是朴素贝叶斯, k 最近邻( k-Nearest Neighbor , k -NN ),最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。
一个和文本分类不同地方就是情感分析有时需要提取文本的真正表达情感的句子。( Pang et al., 2004 )基于文本中的主观句的选择和( Wilson el al.,2009 )基于文本中的中性实例( neutral instances )的分析,都是为了能够尽量获得文本中真正表达情感的句子。( Abbasi et al.,2008 )提出通过信息增益( Information Gain , IG )的方法来选择大量特征集中对于情感分析有益的特征。
而对于特征选择,除了 N 元语法和词类特征之外,( Wilson el al.,2009 )提出混合单词特征,否定词特征,情感修饰特征,情感转移特征等各类句法特征的情感分析,( Abbasi et al.,2008 )提出混合句子的句法( N 元语法,词类,标点)和结构特征(单词的长度,词类中单词的个数,文本的结构特征等)的情感分析。
除了对于文本的预处理,对于监督学习中情感分析还进行了以下方面的研究的。( Melville et al., 2009 )和( Li et al.,2009 )提出结合情感词的先验的基于词典的情感倾向性和训练文本中后验的基于上下文的情感情感倾向性共同判断文本的情感倾向性。( Taboada et al.,2009 )提出结合文本的题材(描述,评论,背景,解释等)和文本本身的特征共同判断文本的情感倾向性。( Tsutsumi et al.,2007 )提出利用多分类器融合技术来对文本情感分类。( Wan, 2008 )和( Wan, 2009 )提出结合英文中丰富的情感分析资源来提高中文情感分析的效果。
基于规则 / 无监督学习
和基于监督学习的情感分析相比,基于规则和无监督学习方面的研究不是很多。除了( Turney,2002 )之外,(朱嫣岚 et al.,2002 )利用 HowNet 对中文词语语义的进行了情感倾向计算。(娄德成 et al.,2006 )利用句法结构和依存关系对中文句子语义进行了情感分析,( Hiroshi et al.,2004 )通过改造一个基于规则的机器翻译器实现日文短语级情感分析,( Zagibalov et al.,2008 )在( Turney,2002 )的 SO-PMI 算法的基础上通过对于中文文本特征的深入分析以及引入迭代机制从而在很大程度上提高了无监督学习情感分析的准确率。
跨领域情感分析
跨领域情感分析在情感分析中是一个新兴的领域,目前在这方面的研究不是很多,主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系,或者说如何寻找两个领域之间特征权值之间的平衡关系。对于跨领域情感分析的研究开始于( Blitzer et al.,2007 )将结构对应学习( Structural Correspondence Learning , SCL )引入跨领域情感分析, SCL 是一种应用范围很广的跨领域文本分析算法, SCL 的目的是将训练集上的特征尽量对应到测试集中。( Tan et al.,2009 )将 SCL 引入了中文跨领域情感分析中。( Tan2 et al.,2009 )提出将朴素贝叶斯和 EM 算法的一种半监督学习方法应用到了跨领域的情感分析中。( Wu et al.,2009 )将基于 EM 的思想将图排序( Graph Ranking )算法应用到跨领域的情感分析中,图排序算法可以认为是一种迭代的 k -NN 算法。
从目前的研究可以看出,跨领域的情感分析主要问题在于寻找两个领域之间的一种映射关系,但是这样的映射关系或者很难寻找,或者需要相当强的数学证明。所以很多研究借用半监督学习的方法,通过逐次迭代逐渐减少训练集和测试集之间的差异。
参考文献:
[1]Xiaojun Wan.Using Bilingual Knowledge and Ensemble Techniques for Unsupervised Chinese Sentiment Analysis.Proceedings of EMNLP-08,553-561
[2]Xiaoun Wan.Co-Training for Cross-Lingual Sentiment Classification.Proceedings of ACL-09,234-243
[3]Theresa Wilson,Janyce Wiebe,Paul Hoffmann. Recognizing Contextual Polarity: An Exploration of Features for Phrase-Level. Computer Linguistics,25(3),399-433
[4]Ahmed Abbasi,Hsinchun Chen,Arab,Salem.Sentiment Analysis in Multiple Languages:Feature Selection for Opinion Classification in Web Forums.ACM Transaction on Information Systems,26(3),12:1-12:34
[5]Prem Melville,Wojciech Gryc,Richard D.Larence.Sentiment Analysis Of Blogs by Combining Lexical Knowledge with Text Classification.Proceedings of KDD-09,1275-1283
[6]KANAYAMA Hiroshi,NASUKAWA Tetsuya,WATANBE Hideo.Deep Sentiment Analysis Using Machine Translation Technology.Proceedings of Coling -04
[7]Maite Taboada,Julian Brooke,Manfred Stede.Genre-Based Paragraph Classification for Sentiment Analysis.Proceedings of SIGDIAL-09,62-70
[9]Taras Zagibalov,John Carroll.Automatic Seed Word Selection for Unsupervised Sentiment Classification of Chinese Text.Proceedings of Coling-08,1073-1080
[10]Bo Pang,Lillian Lee.A Sentimental Education:Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts.Proceedings of ACL-04
[11]Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up?Sentiment Classification using Machine Learning Techniques.Proceedings of EMNLP-02,79-86
[12]Peter D. Turney.Thumbs Up or Thumbs Down?Senmantic Orientition Applied to Unsupervised Classification of Reviews.Proceedings of ACL-02,417-424
[13]Kimitaka Tsutsumi, Kazutaka Shimada,Tsutomu Endo. Movie Review Classification Based on a Multiple Classifier. Proceedings of the 21st Pacific Asia Conference on Language, Information and Computation (PACLIC21), 481-488
[14]John Blitzer,Mark Dredze, Fernando Pereira. Biographies, Bollywood, Boom-boxes and Blenders:Domain Adaptation for Sentiment Classification. Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 440–447
[15]Songbo Tan,Xueqi Cheng. Improving SCL Model for Sentiment-Transfer Learning. Proceedings of NAACL HLT 2009: Short Papers, 181–184
[16]Songbo Tan, Xueqi Cheng, Yuefen Wang, Hongbo Xu. Adapting Naive Bayes to Domain Adaptation for Sentiment Analysis. ECIR 2009,337–349
[17]Qiong Wu,Songbo Tan,Xueqi Cheng. Graph Ranking for Sentiment Transfer. Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, 317–320
[18]Tao Li Ti Zhang,Vikas Sindhwani.A Non-negative Matrix Tri-factorization Approach to Sentiment Classification with Lexical Prior Knowledge.Proceeding of ACL-09,244-252
[19] 娄德成 , 姚天妨 . 汉语与子语义极性分析和观点抽取方法的研究 . 计算机应用 ,2006,26(11),2622-2625
[20] 朱嫣岚 , 闵锦 , 周雅倩 , 黄萱菁 , 吴立德 . 基于 HowNet 的词汇语义倾向计算 . 中文信息学 报 ,2006,20(1),14-20