Mining and Summarizing Customer Reviews 消费者评论的挖掘和总结

论文介绍

这是一篇发表于2004年的论文，据说该论文开创了用户评论情感分析的先河，作为电子商务网站的后台功能的一部分，这篇论文有比较重要的商业价值。本文的评论情感分析分为三个主要步骤：

1. 找出用户所评论的商品特征

2. 找出对特征的描述词，并且判断这些词是肯定还是否定

3. 将分析结果结构化的展示出来。

本文是一篇工程实践论文。论文并未对其中的某一项任务提出全新的算法，而是利用目前已有的各种算法来尽力完成工程所需要完成的目标。然后对于算法完成不太好的地方，尽量去设计一些规则去弥补，以保证整个系统的工程质量。最终论文用一些相对简单的规则就达到了当时的商业软件的准确率。

论文所提出系统的主要结构

image.png

1. 判断词性/词性标注

当时用的是NLProcessor。从评论中取出名词和名词短语作为待选词，还做了一些停用词干化和模糊匹配（用于处理拼写错误的单词）。

2. 频繁商品特征

事先声明，这个论文的系统只能识别显式的描述词，比如： “The pictures are very clear.”。就是描述picture的。不能识别隐式描述词，比如：“While light, it will not easily fit in pockets.” 就不能识别这句话描述的是size。

论文采用的关联挖掘来找出所有的商品特征，这些频繁出现的就是频繁特征。具体使用的算法是association miner CBA，定义关联支持度高于1%就作为频繁特征。这是Apriori algorithm的一个变种。

发现可能的特征后，作者使用两种方法进行进一步筛选，一是Compactness pruning，这个规则可以去掉没有连在一起的描述短语。

再就是Redundancy pruning，这个规则可以去掉重复的特征。

3. 情感单词抽取

仅找出那些与频繁商品特征相关的形容词，这些形容词的情感取向就代表了用户对该特征的描述。而既包含频繁商品特征，又包含形容词，那么就可以认为是有态度的句子。比如下面的句子：“The strap is horrible and gets in the way of parts of the camera you need access to.” 而里面的horrible就是情感单词，strap就是频繁特征。

4. 情感取向判断

手动标注一部分词的情感取向作为种子单词，然后以他们wordnet中的临近程度，来判断其他词的情感取向。同义词或者近义词，我们认为它们的情感取向也是一样的。

image.png

具体逻辑如下：

image.png

5. 非频繁商品特征

作者认为，用于形容频繁商品特征的形容词，往往也会用来形容其他的特征，所以被这些形容词形容的名词，很大概率也是商品特征。

6. 句子情感取向判断

表态的句子中，进行一个计数，肯定词多于否定词就判断这个句子是肯定的句子。一样多的话就看相邻句子的情感。流程如下：

image.png

7. 生成总结

这个就比较简单，便于展示阅读就好。形式如下：

image.png

Mining and Summarizing Customer Reviews 消费者评论的挖掘和总结

论文介绍

论文所提出系统的主要结构

1. 判断词性/词性标注

2. 频繁商品特征

3. 情感单词抽取

4. 情感取向判断

5. 非频繁商品特征

6. 句子情感取向判断

7. 生成总结

你可能感兴趣的:(Mining and Summarizing Customer Reviews 消费者评论的挖掘和总结)