情感分析,又称意见挖掘,是分析人们对产品、服务、组织、个人、问题、事件、主题等
实体的意见、评价、态度和情感及其属性的研究领域。
1.文档级(对单一实体的分析,细粒度不够)
2.句子级(主观性和情感分类)
3.方面级(主题的各个方面的情感)
在大多数应用程序中,用户需要知道其他细节,即喜欢和不喜欢哪些实体或实体的哪些方面。作为文档级,句子级分析仍然不能做到这一点。
1.不出所料,情绪最重要的指标是情感词,也称为意见词。这些词通常用来表达积极或消极的情绪。例如,good, wonderful, amazing是积极的情感词,bad, poor, terrible是消极的情感词。除了单个的单词,还有短语和习语,例如,cost someone an arm and a leg。情感词汇和短语有助于情感分析,原因很明显。这些词和短语的列表被称为情感词典(或观点词典)。
2.特别的,当有一个情感词典(即使有领域特定的方向)并不意味着词典中的一个词总是在一个特定的句子中表达意见/情感。例如,在“I am looking For a good car to buy”中,“good”既不能表达对某一辆车的肯定看法,也不能表达对某一辆车的否定看法。
1.一个积极的或消极的情感词在不同的应用领域可能有相反的方向
2.一个含有感情的句子,不能表达任何感情。
3.带有或不带有情感词汇的讽刺句都很难处理。
4. 许多没有情感词汇的句子也可以暗示观点。
情绪分析主要研究表达或暗示积极或消极情绪的观点。
情绪分析的目标:给定一个意见文档d,发现所有意见五元组
最后,总结,给定一组意见文档D,情感分析包括以下6个主要任务:
任务1(实体提取与分类):提取D中的所有实体表达式,将同义词实体表达式分类或分组为实体簇(或类别)。每个实体表达式集群表示一个唯一的实体ei。
任务2(方面提取和分类):提取实体的所有方面表达式,并将这些方面表达式分类到集群中。实体ei的每个方面表达簇代表一个独特的方面aij。
任务3(观点持有者提取与分类):从文本或结构化数据中提取观点持有者并进行分类。该任务类似于上述两个任务。
任务4(时间提取与标准化):提取给出意见的时间,对不同的时间格式进行标准化。该任务也类似于上述任务。
任务5(方面情绪分类):确定对方面aij的意见是积极的、消极的还是中性的,或者为方面分配一个数字情绪评级。
任务6(opinion quintuple generation):根据以上任务的结果,生成文档d中表达的所有意见五元组(ei, aij, sijkl, hk, tl)。
定义(实体):实体是产品、服务、主题、问题、个人、组织或事件。它用一对e:(T,W)来描述,其中T是部分、子部分等的层次结构,W是e的一组属性。每个部分或子部分也有自己的属性集。
1.意见N由两个关键部分组成:目标g和对目标的情绪s,即(g,s)其中g可以是任何实体或实体的某个方面,
而s是积极的、消极的或中性的情绪。或者用数字评分来表达情感的强度(1-5颗星),
积极、消极和中立被称为情绪(或观点)取向(或极性)。
2.分解目标之后,意见可以重新被定义,意见是五元组(ei、aij、sijkl、hk、tl),其中ei是实体的名称,
aij是ei的一个方面,sijkl是实体ei对aij方面的情绪,hk是意见持有人,tl是表达意见的时间。sijkl的情绪是积极的、消极的或消极的。
意见的统计与汇总,意见摘要是多文档摘要的一种特殊形式。然而,它与传统的多文档摘要也有很大的不同,因为意见摘要以结构化的方式进行,这有利于定性和定量分析以及意见的可视化。
给出评估实体的意见文件d,确定意见持有人对该实体的总体看法,即,E确定在五元组中表示在aspect 总体上的s。
有两种基于s所取值类型的公式。如果s取分类值(积极的或消极的),则是一个分类问题。如果s取给定范围内的数值或序数分数(1-5颗星),问题变成了回归。
为了确保这项任务在实践中是有意义的,现有的研究做出了以下隐含的假设,情绪分类或回归假设意见文档d(例如,产品评论)表达对单个实体e的意见,并包含来自单个意见持有者h的意见。
1. 基于监督学习的情感分类
情感分类本质上是一个文本分类问题,任何现有的监督学习算法都可以应用,例如,朴素贝叶斯分类与支持向量机将电影评论分为正面或者负面。
传统的文本分类主要对不同主题的文档进行分类,例如,政治、科学和体育。在这种分类中,主题相关词是关键特征。
然而,在情绪分类中,表示积极或消极意见的情绪或意见词更为重要。情感分类的关键是设计一组有效的特征
一些重要的特征包括:
术语及其频率:这些特征是单个单词(单字)及其n字图和相关频率计数。它们也是传统的基于主题的文本分类中最常见的特征。在某些情况下,还可以考虑单词位置。与传统的文本分类一样,这些特征对于情感分类也非常有效。
词性:每个单词的词性也很重要。不同词类的单词可能会受到不同的对待。例如,有人指出形容词是观点的重要标志。因此,一些研究人员将形容词视为特殊特征。
感情词和短语:情绪词是一种用来表达积极或消极情绪的语言。例如,好的、美妙的和令人惊奇的是积极的情绪词,坏的、差的和可怕的是消极的情绪词。大多数情感词是形容词和副词,但名词(如垃圾)和动词(如恨和爱)也可以用来表达情感。除了单个单词外,还有情感性短语和词组,例如,花费某人一只手臂和一条腿。
意见的规则:除了情绪词和短语外,还有许多其他表达或语言成分可以用来表达或暗示情绪和观点。
情绪转移者:这些是用来改变情绪取向的表达,例如,从积极到消极,反之亦然。否定词是情绪转移者中最重要的一类。例如,“我不喜欢这个相机”这句话是否定的。这样的转变也需要小心处理,因为并不是所有这些词语的出现都意味着情绪的改变。例如,“不仅……而且”中的“不”不会改变情绪取向。
句法依赖:研究人员还尝试了由解析或依赖树生成的基于单词依赖性的特征。
2.基于无监督学习的情感分类
由于情感词往往是情感分类的主导因素,因此不难想象,情感词和短语可以在无监督的情况下用于情感分类。该方法是这样一种技术。它根据一些可能用于表达意见的固定语法模式进行分类。句法模式是根据词性标签组成的。
3.跨域的情绪分类
研究表明,情感分类对训练数据提取的领域高度敏感。使用来自一个领域的意见文档训练的分类器通常在来自另一个领域的测试数据上表现很差。原因是,在不同的领域表达观点所用的词语甚至语言结构可能是非常不同的。更糟糕的是,同一个词在一个域中可能表示积极,但在另一个域中可能表示消极。因此,需要领域适应或迁移学习。现有的研究主要基于两个背景。第一个设置需要新域的少量标记训练数据。第二种方法不需要新域的标记数据。带有标记训练数据的原域通常称为源域,用于测试的新域称为目标域。
4.跨语言情绪分类
跨语言情感分类是指对多种语言的意见文档进行情感分类。跨语言分类有两个主要动机。首先,来自不同国家的研究人员希望用自己的语言构建情感分析系统。然而,大部分研究都是用英语进行的。在其他语言中,没有多少资源或工具可以用于在这些语言中快速构建良好的情感分类器。自然而然的问题是,是否有可能利用自动机器翻译能力和现有的英语情感分析资源和工具来帮助构建其他语言的情感分析系统。第二个动机是,在许多应用程序中,公司希望了解和比较不同国家的消费者对其产品和服务的看法。如果他们有英语情感分析系统,他们希望通过翻译快速构建其他语言的情感分析系统。
目前的研究主要集中在文档层次的情感分类和句子层次的主观性和情感分类。aspect层面的工作有限。
对于大多数应用程序来说,文档级情感分类可能过于粗糙。我们现在转到句子层面,即对每个句子中表达的情感进行分类。然而,文档级分类和句子级分类之间没有根本区别,因为句子只是简短的文档。研究人员经常对句子层次分析做出的一个假设是,一个句子通常包含一个观点(尽管在许多情况下并非如此)。
句子情感分类既可以作为三类分类问题(积极,消极,中立)来解决,也可以作为两个独立的分类问题来解决。在后一种情况下,第一个问题(也称为第一步)是对句子是否表达观点进行分类。第二个问题(也称为第二步)将这些观点句子分为积极和消极两类。第一个问题通常称为主观性分类,它决定一个句子是表达一段主观信息还是事实(客观)信息。
1.主观性分类
主观性分类将句子分为主观和客观两类。客观句表达一些事实信息,而主观句通常表达个人观点和意见。事实上,主观句子可以表达多种类型的信息,例如意见、评价、情绪、信念、推测、判断、指控、立场等。其中有些表示积极或消极的情绪,有些则没有。
大多数现有的主观性分类方法都是基于监督学习的,例如早期工作使用具有一组二元特征的朴素贝叶斯分类器进行主观性分类。
2.句子情感分类
如果一个句子被归类为主观的,我们将确定它表达的是积极的还是消极的观点。
大部分研究中所做的一个隐含假设,句子级情感分类假设:一个句子表达一个观点持有者的一种情感。这一假设适用于只有一种情绪的简单句子,例如,“这台相机的图像质量令人惊叹。”然而,对于复合句和复合句,一个句子可能表达不止一种情绪。例如,这句话“这台相机的图像质量令人惊叹,电池寿命也令人惊叹,但取景器太小,不适合这么好的相机”,既表达了积极的情绪,也表达了消极的情绪。对于“图片质量”和“电池寿命”,这句话是肯定的,但对于“取景器”,这句话是否定的。从整体上看,这对相机也是有利的。
随着越来越多的人依靠网络上的意见来做出决策,通过撰写虚假评论和发布虚假评论的意见垃圾邮件正日益成为一个重要问题。为了确保这些意见的可信度,打击意见垃圾邮件是一项紧迫的情绪分析和意见挖掘任务。