Mining and Summarizing Customer Reviews 消费者评论的挖掘和总结

论文介绍

这是一篇发表于2004年的论文,据说该论文开创了用户评论情感分析的先河,作为电子商务网站的后台功能的一部分,这篇论文有比较重要的商业价值。本文的评论情感分析分为三个主要步骤:

1. 找出用户所评论的商品特征

2. 找出对特征的描述词,并且判断这些词是肯定还是否定

3. 将分析结果结构化的展示出来。

本文是一篇工程实践论文。论文并未对其中的某一项任务提出全新的算法,而是利用目前已有的各种算法来尽力完成工程所需要完成的目标。然后对于算法完成不太好的地方,尽量去设计一些规则去弥补,以保证整个系统的工程质量。最终论文用一些相对简单的规则就达到了当时的商业软件的准确率。

论文所提出系统的主要结构

image.png

1. 判断词性/词性标注

当时用的是NLProcessor。从评论中取出名词和名词短语作为待选词,还做了一些停用词干化和模糊匹配(用于处理拼写错误的单词)。

2. 频繁商品特征

事先声明,这个论文的系统只能识别显式的描述词,比如: “The pictures are very clear.”。就是描述picture的。不能识别隐式描述词,比如:“While light, it will not easily fit in pockets.” 就不能识别这句话描述的是size。

论文采用的关联挖掘来找出所有的商品特征,这些频繁出现的就是频繁特征。具体使用的算法是association miner CBA,定义关联支持度高于1%就作为频繁特征。这是Apriori algorithm的一个变种。

发现可能的特征后,作者使用两种方法进行进一步筛选,一是Compactness pruning,这个规则可以去掉没有连在一起的描述短语。

再就是Redundancy pruning,这个规则可以去掉重复的特征。

3. 情感单词抽取

仅找出那些与频繁商品特征相关的形容词,这些形容词的情感取向就代表了用户对该特征的描述。而既包含频繁商品特征,又包含形容词,那么就可以认为是有态度的句子。比如下面的句子:“The strap is horrible and gets in the way of parts of the camera you need access to.” 而里面的horrible就是情感单词,strap就是频繁特征。

4. 情感取向判断

手动标注一部分词的情感取向作为种子单词,然后以他们wordnet中的临近程度,来判断其他词的情感取向。同义词或者近义词,我们认为它们的情感取向也是一样的。

image.png

具体逻辑如下:

image.png

5. 非频繁商品特征

作者认为,用于形容频繁商品特征的形容词,往往也会用来形容其他的特征,所以被这些形容词形容的名词,很大概率也是商品特征。

6. 句子情感取向判断

表态的句子中,进行一个计数,肯定词多于否定词就判断这个句子是肯定的句子。一样多的话就看相邻句子的情感。流程如下:

image.png

7. 生成总结

这个就比较简单,便于展示阅读就好。形式如下:

image.png

你可能感兴趣的:(Mining and Summarizing Customer Reviews 消费者评论的挖掘和总结)