基于LDA对电商商品评论进行情感分析

数据是人工爬取自京东网站上的评论数据,该项目主要以美的产品作为分析。
下载连接:
链接:https://pan.baidu.com/s/1uyzEa6VJBkBLHMzxLxwwMw
提取码:bwfa

1、项目背景:
现在大众在进行网购之前都会先看下相关商品的评论,包括好评与差评,再综合衡量,最后才决定是否会购买相关的物品。甚至有的消费者已经不看商品的详情秒数页而是直接看评论,然后决定是否下单。商品评论已经是用户决策最为核心的考量因素了。
在本项目中要根据商品的好评与差评,提取出关键词,快速了解一件商品的好与不好的地方。

原始评论需要提炼:
商品虽然希望买家给好评,但是从数据挖掘的角度看,单纯的好拼价值不大,尤其是一些空洞的评价,并未能给未来潜在消费者提供有价值的参考信息。比如大部分消费者会这么说“质量不错”、“好评,下次买还是你家”等,但对于一个关心该产品安全性的消费者来说显然是没用的,当消费者没了解到他想了解的问题,很可能在头脑发热期过了之后就不会再考虑购买了。

2、项目需求:
对于一个指定的商品,生产商、卖家或消费者需要了解用户认同该商品的哪些优点,不认同该商品的哪些弱点或缺点。

3、项目输出:
(1)商品好评的若干个topic中,其关键词各是什么,以及每个关键词的权重。
(2)商品差评的若干个topic中,其关键词各是什么,以及每个关键词的权重。

4、需要安装的库:
snownlp – 用来处理情感分析
jieba – 分词
gensim – 使用主题模型

5、LDA主题模型:
如果一篇文章有一个中心思想或主题,那么一些特定词语会更频繁地出现。一篇文章通常可以包含多种主题,每个主题所占比例各不相同。对于不同主题的文章而言,其不同的主题实际上构成了一个分布。
一篇文章有主题,那么对于一个文档集,我们也可以分析其主题分布

你可能感兴趣的:(NLP)