文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析

知识图谱定位:

文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第1张图片

1.情感分析的动机

1.主观与客观的情绪

两种方式:摄影记录,文本采集。
文本比摄影更具有信息优势,由于可以借助办公机会。
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第2张图片

2.观点是什么?

观点:常等同于主观声明,代表一个人所相信的,对某件事的想法。
1)观点的主观性与客观存在对立面:主观性是无法证明对错的,而客观是可以证明对错的。例如:电脑有一个屏幕和一个电池,这是可以检查是否正确的;而你说电脑有一个好屏幕,这是无法判断正确与错误的,这存在主观性。
2)观点与文化,背景,等因素相关,不同的人对同一件事物会有不同的观点,同一个人对不同事物也会有不同的观点。
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第3张图片

3.观点的表示

观点的三个基本组成:人,事物,观点内容。
观点的其他组成:1)所处文化、背景(时间地点);2)人的观点情绪。例如:积极、消极。
这时观点的内容使得方便挖掘和分析。
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第4张图片

新闻中的观点:

例子中的成分提取需要用到:自然RAM程序技术
分析和组装新闻仍然很困难,比起产生评论的观点。
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第5张图片

各种各样的观点:

文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第6张图片

文本数据中的不同种类的观点:

观点分为直接观点和间接观点
直接观点指作者自己的观点;
客观观点指其他人对作者的观点。例如:我认为他喜欢那植物。
挖掘潜在观点:例如:从”苹果手机电池只能用一个小时”挖掘出潜在观点”他希望电池有更长的使用时间”。
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第7张图片

4.挖掘观点的任务:

将观点陈述的各要素作为输入挖掘分析观点
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第8张图片

5.观点挖掘的重要性:

1)帮助决策:选择产品和服务;预测投票结构;制定新政策
2)理解人:理解人的需求从而更好服务;
3)自愿的调查:商业情报;市场调查;数据驱动社会科学调查;基于文本的预测获得利益。
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第9张图片

2.情感分析的分类

1.情感分类的具体任务

1)输入带有意见的文本对象;
2)输出是一个情感标签。两种方式实现:

  • 极性分析,分为两面正面和负面。例如:数值形式的评分(5为最正面情感,1为最负面情感)。
  • 情绪分析,类别化的任务。例如:惊喜,悲伤,恐惧,生气。可用之前的分类器加以改进。

考虑次序:例如可以使用顺序回归

文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第10张图片

2.常用的文本特征

1)一系类字符作为一个单元,n的长度可以不一样。出现拼写和识别错误时依然很稳健(因为他们有相同的子串)但是字符的判别能力没有词汇高。
2)词串,长的词串表达更准确但是可能出现过拟合。
3)词性标记构建词串。例如:形容词和名词成对。
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第11张图片
拓展:
4)词类

  • 单词:代表词库或本体中的概念,可用来做额外特征扩充。
  • 词集群:哪些位置上这些词更有可能接连出现
    缺点:在特征复杂情况下,可能出现输入过度的情况。
  • 分析树分析特征:频繁出现的子树或路径,或是那些有强辨别能力的特征,也可能出现过度拟合的情况。
  • 模式发现算法比单词更为有用也更为复杂。

文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第12张图片
5)自然语言处理
能提供更为复杂的特征以及丰富的文体表述。
利用词性标注、分析树、或是实体、行为语言生成其他的特征,更为复杂的特征,就像一个混合型的词串、词性标注或是分析树的一部分。
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第13张图片

小结:

特征设计会显著影响分类精度。
有效方法是:组合机器学习、误差分析、领域知识。
首先:利用领域知识,对于问题的理解设计种子的特征。
然后:定义一个基本的特征空间,涵盖许多最有效的特征,或是构建新的特征。这些特征可以利用误差分析进一步分析。可以进一步了解哪些特征,修正误差。或哪些误差引起过度拟合,导致误差,就进入特征检验过程。
自然语言处理丰富了文本识别,改善了特征空间。但要注意使用过多的类别特征,可能导致过拟合,所以训练时要注意防止外溢。权衡特异性和完备性。(完备性:指需要挑选合适的特征,覆盖大量文本内容,所以需要这些特征频繁出现,多以不常出现的特征,往往会有更强的判别能力。)
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第14张图片

3.有序逻辑回归在情感分析中的使用

1.顺序逻辑的目的

以含有评价的文本d作为输入,想得到从1到k的评分
不考虑分类的顺序和依赖性
解决方法有序逻辑回归。
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第15张图片

2.二元情感分析

B为参数,最下面的式子为直接线性函数。
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第16张图片

3.多元情感分析

引入多个二元类文件,每种情况都让类文件去预测,评分比j高还是低
Yj=1 时,表示评分高于或等于j.
Yj=0 时,表示评分低于j.

想要在1到k区间里预测评分,首先有个分类来区分K和其他值,以此类推,所以一共有k-1个区分器。

这里的式子有更多的参数,用j作为指数来区分分类,用 Aj 来代替 B0
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第17张图片
判断评分过程:从高往低逐级递减判断评分的过程
存在问题:参数太多:(K-1)*(M+1);K-1个分类器并不彼此独立。
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第18张图片

有序回归

解决上面的第二个问题,即k-1个分类器非独立问题。
假设B参数是这些权重推断的参数
正面文字更有可能得到高分:作用:
1)分享数据,B参数的区分只会对应到每一个特征,不再拥有其他指标值。即所有分类器里只有一组更好的值,然而每个分类依旧有各自的a值.不同而j会有不同的a值
2)减少参数:K-1个a值,M个B值
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第19张图片

评分

预测概率:得分函数只需要利用B值,看他落在哪个区间,简单做出评分规定。
文本挖掘与分析第五周学习笔记3--意见挖掘和情感分析_第20张图片

你可能感兴趣的:(文本挖掘与分析)