极性分类——网络舆情正负面信息识别的方法

随着Web2.0时代的到来,以及微博、SNS媒体的兴起,互联网上个人发布的信息迅速增多,企业和政府前所未有的与用户和公众如此之近。把握企业和政府前途的决策之匙不仅握在管理者决策者手中,也同时握在用户和公众手中。如何从互联网获取的海量信息中提取用户或者公众的情感倾向、以及针对某事物的正负面评论,可以为企业把握用户的消费态度,为政府把脉公众的情绪提供重要的依据,促成做出更加正确的决策。

面对众多不同消费者,不同渠道发布的大量评价、留言、微博等信息,对数以亿计海量信息进行处理的过程显然是人工无法完成的,近些年,国际国内都有专业研究机构对这一问题进行研究开发,并取得了一些进展:计算机系统能够准确抓取这些不同来源的信息,,并企图了解用户的真实意图,得出正负面评价。那么计算机系统又是如何对各种各样的信息进行“理解”,“分析”,并准确分辨出哪些是正面评价,哪些是负面评价呢? 

对此,《网络舆情正负面信息识别的方法》系列文章将为您答疑解惑。通过这一系列稿件,结合本人在优捷信达科技研究工作,将为您详细介绍计算机对自然语言的分析原理,以及对情感分析中与舆情正负面密切相关的“极性分类”领域进行详细介绍,并介绍目前学术上流行的极性分类方式及其优缺点,展望正在研究的最新技术前沿,帮助您了解市场上流行的“舆情监测”,”信息监测“,“消费者调研”等等信息处理系统的工作原理。

联网上80%以上的信息是以文本方式呈现的,网上的用户评论尤其如此。这些信息就需要所谓的“自然语言处理技术”来进行处理。网络文本信息中包含了客观陈述和主观陈述,如果对主观陈述中所包含的情感进行分析,则是自然语言处理方面最活跃的一个研究方向: “情感分析SA(Sentiment Analysis)“,这一研究方向主要关注所处理的信息中的意见、情感和主观性。在各种情感分析中,对情感的正负面——也就是褒义、贬义进行分析判定,是目前为止情感分析方面最主要的任务,也叫做“极性分析”。极性分析可以被看作是这样一个任务:“对于给定的一段带有观点的评论性文本,标记出它是整体正面评价或者整体负面评价”。通俗来说也就是标记某一段评论性文字所代表的倾向性情感是正面还是负面,对所表达的主题是喜爱还是讨厌,是赞同还是反对等等。本文将详细描述极性分析的背景、过程和意义。


1.极性分类的背景

情感分析系统是一种具有情感分析功能的计算机软件系统,它能从微博短文、网页评论等文字中提取情感信息,让计算机自动分辨情感正负面,自动汇报给客户。例如,优捷信达科技对中海地产进行客户关系舆情监测工作时,需要及时准确地掌握获取中海业主的意见和建议,通过慧眼系统自动提取信息,分辨正负面,并汇报给中海地产,协助他们防患于未然,为业主提供更优质的服务。

为了实现上述系统,需要完成以下工作:需要对文章或者评论进行检测,分析出带有主观意见的段落句子;对这个句子进行细分,提取主题、意见发起者、相关意见,并对这些意见进行正负面分析或者极性分类。

首先,需要让计算机系统分辨出哪些文件或文件的哪一部分能够表达真实的主观信息。这一具有挑战性的任务也被称为主观表述检测,目前这一任务已经得到很好的解决。

第二步,基于原始文本中提取的主观信息,将进一步提取其所表达的意见,确定有哪些内容,以及他们之间的关系:

要素一: 主题提取:提取带有评述性的观点,它表述的主题都有哪些方面。
要素二: 观点持有者识别:确定持有这些评述性的观点的人。
要素三: 陈述的选择:鉴别哪些是观点持有者发布的意见,然后去除其他人的陈述。
以上三个要素是为了让计算机准确地选择某一个人对某一个主题的观点。第四步是对这一观点进行正负面分析。
要素四:舆论分析:通过计算“理解”主观表述的倾向,即观点的正负面分析,包括如下几种分析方式。

1. 将舆论归入到情感极性中的正面或负面“,这个问题被称为极性分类。
2.“在正负面两个极端之间确定它的强度”,这个问题被称为序列回归。
3. 提取意见的同时也提取出现这个意见的原因。系统不仅可以分析“用户是否喜欢它/用户到底有多么强烈地喜欢它”,而且还能分析“为什么我们的用户喜欢它”。
4. 文本分类的观点,有点像美国政治人士的政治立场:“自由”或“保守”。

由于篇幅所限,本文仅就“将舆论归入情感极性中的正面或负面”这一问题进行描述。


2. 极性分类过程

对背景所描述的极性分类过程进行总结,典型的极性分类过程如下:

图表 1 极性分类流程图

包括以下步骤:

第一步,特征提取方法。它将原始文档的主观态度转化为机器可以识别的符号化的句子或陈述。通俗来说就是通过计算机系统的设定,用某种方式对网络上的文字进行识别和提取具有正负面倾向性的内容。这一步是极性分类效果好坏最关键的一步。近年来国际上有很多种方法来进行提取,都有各自的优缺点,在接下来的文章中将详细描述各种方法及其优缺点。目前优捷信达科技主要采用互信息、信息增益等技术,结合自身对舆情分析的把握,有效提高特征提取的完整性,准确率。

第二步,分类。当前主要运用标准的机器学习分类器,比如被广泛应用的支持向量机SVM(Support Vector Machines),对已经提取并数据化表示的特征向量进行正负面分类。简言之,就是将第一步提取出来的具有正负面倾向性的内容,通过计算方式进行比对和分类,确认出这段文章的情感倾向是正面的还是负面的。

第三步,输出报告。

3.  极性分类的意义

极性分类是情感分析中的主要的任务之一。现实世界有很多问题是可以用两极对立观点来评估的。比如,“喜欢”或者“不喜欢”某个产品,或者某篇文章是否对某一个话题有所帮助,等等。通过情感分析,我们就能更好地理解客户的行为和公众的意见,这对企业和政府了解公众真实及潜在意见来说非常关键。

极性分类具有巨大商业价值和公共服务价值。优捷信达科技对互联网海量网站、论坛、微博的监测,可以帮助企业客户准确掌握互联网消费者对该企业及产品的正负面评价,在2012年初,优捷信达科技通过对电商行业微博舆情的情感正负面极性分析,准确地把握了知名电商的口碑词汇和量级。这类客户调查对企业至关重要,因为现有客户的正负面评论不仅可以帮助厂家了解消费者意见加以改进,还可以极大地影响潜在客户的购买意向。而这么大量的调查如果是人为进行的话将非常费时费力,成本极高,情感分析技术特别是极性分类技术的产生,极好地满足了客户这一潜在的巨大需求。

通过本文简短的介绍,对网络舆情监测中正负面信息的识别有了一个整体性的描述。

你可能感兴趣的:(网络,情感,自然语言处理,互联网,任务,工作)