文本的粒度:粒度是衡量文本所含信息量的大小。文本含信息量多,粒度就大,反之就小
情感分析可分为:词语级、短语级、句子级、篇章级以及多篇章级等几个研究层次
一、情感信息抽取 :
情感分析的最底层的任务,它旨在抽取情感评论文本中有意义的信息单元.其目的在于将无结构化的情感文本转化为计算机容易识别和处理的结构化文本,继而供情感分析上层的研究和应用服务
1.1 评价词语的抽取和判别:
(1)基于语料库:利用大语料库的统计特性
优点:简单易行 缺点:可利用的评论语料库有限,同时评价词语在大语料库中的分布现象不容易归纳。
(2)基于词典:使用词典(WordNet/HowNet)中的词语之间的词义联系来挖掘评价词语。
优点:获取的评价词语的规模非常可观。
缺点:很多词存在一词多义,构建的情感词典往往含有较多的歧义词。
1.2 评价对象的抽取:
首先什么是评价对象:评价对象是某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象。
(1)使用基于规则/模板的方法抽取评价对象:
优点:针对性强,可以直接针对待解决的问题或特定的语言现象指定规则/模板
缺点:规则/模板的可扩展性差,人工编写的工作量大、成本高
(2)将评价对象看成产品属性的一种表现形式,考察候选评价对象与领域指示词之间的关联度来获取真正的评价对象。
优点:实验结果超过基于规则/模板的方法
缺点:领域指示词获取难度较大
(3)话题模型:
有学者采用多粒度话题模型挖掘产品领域情感文本中的评价对象,将相似的评价对象进行聚类。
1.3 观点持有者抽取:
(1)借助命名实体识别技术获取观点持有者
(2)借助语义角色标注完成观点持有者抽取
缺点:依赖于自然语言处理的基础技术,有较低的语言覆盖现象和较差的领域适应性。
1.4 组合评价单元的抽取:
1.4.1 主观表达的抽取:
啥是主观表达:表示情感文本单元主观性的词语或词组
1.4.2 评价短语的抽取
一组连续出现的词组,由程度副词和评价词语组合而成。
对于修饰词和评价词不是连续出现的情况,Moilanen 等人定义组合语义单元,对于一组非连续的词语,通过相互作用来表达某种情感极性,组合语义单元可以看作一种更为复杂的评价短语,大部分情况下使用人工总结或半自动生成的模板来识别。
1.4.3 评价搭配的抽取
啥是评价搭配:评价词语及其所修饰的评价对象二者的搭配。二元对<评价对象,评价词语>
在未来应侧重于研究自动生成评价对象和评价词语之间的匹配规则的策略
二、情感信息分类:
利用底层情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬两类或者其他更细致的情感类别(如 喜、怒、哀、乐等).
按照不同的分类目的,可分为主客观分析和褒贬分析;
按照不同的分类粒度,可分为词语级、 短语级、篇章级等多种情感分类任务。
情感信息的分类任务分为:1.主客观信息的二元(褒贬)分类以及更细致的多元分类;2.主观信息的情感分类
2.1 主客观信息分类
将主客观信息分类的目的是为了减少情感文本中夹杂的客观信息对情感分析的影响。
(1)考察文本内部是否含有情感知识
(2)使用情感文本中的组合评价单元消除歧义性
(3)构建情感模板识别情感文本的主客观性
(4)采用Naive Bayes分类器完成篇章级情感文本的主客观分类
(5)从标点符号、人称代词、数字等特征角度考察主客观文本
(6)采用基于图的分类算法完成句子级的主客观分类
2.2 主观信息情感分类
(1)对主观文本信息的褒贬二元分类
(2)使用one-vs-all多元分类算法和回归分类算法完成情感分类
(3)基于图的半指导分类算法,完成评论的褒贬四个等级的分类
2.3 观点分类与挖掘
使用分类器和分类特征相结合的算法
三、情感信息的检索与归纳:
可以看作与用户直接交互的接口,着重强调检索和归纳两项应用
情感信息检索的目的是为用户检索出与主题相关且包含情感信息的文档;
情感信息归纳则针对大量主题相关的情感文档,自动分析和归纳整理出情感分析结果给予用户参考,从而节省用户翻阅相关文档的时间。
3.1 情感信息检索
(1)结合传统的信息检索模型进行主题相关的文档检索
(2)相关文档的主客观识别
对于某一主题的所有相关文档,判别其主客观性,并获取带有情感的主观性文档。
(3)主题相关的情感文档排序
基于概率生成模型的情感文档排序方法
3.2 情感信息归纳
3.2.1 基于产品属性的情感文摘
产品属性指:产品评论中的评价对象
(1)识别出评论信息中的产品属性(评价对象)
(2)抽取出描述产品属性的情感句
(3)针对产品属性的每一个情感句,判断其情感倾向性
3.2.2 基于情感标签的情感文摘
3.3.3 基于新闻评论的文摘
概念词和情感词
四、情感分析的应用:
1.用户评论分析与决策
2.舆情监控
3.信息预测
…