基于 PySpark 的中文情感分析(完整的项目代码+数据集可作为毕设)

本文使用PySpark框架搭建对于中文商品评论的分布式情感分析模型,在测试集上的准确率为 85.48%。 模型基于 TF-IDFNaive Bayes 构建。代码在 code.py 对于文本的预处理包括标识化处理、移除停用词和标点符号等。

移除停用词/标点符号后的分词结果(部分):

基于 PySpark 的中文情感分析(完整的项目代码+数据集可作为毕设)_第1张图片

在测试集上的准确率:

文本情感分析:又被称为意见挖掘、倾向性分析、观点提取等,是指通过自然语言处理、文本挖掘方法等技术来识别和提取文本素材中所含的主观情绪信息。常见的应用包括给定一段文本,判断其所含有的是正面情绪还是负面情绪,本质上可以视作一个二分类问题。举例而言,商品评价“值得推荐!希望大家都读一下很有用的”是正向的,标签记为 1;商品评价“像素低的很,还有破损”是负向的,标签记为 0。

情感分析的应用非常广泛,比较知名的有依靠社交网站 Twitter 的上公开信息进行情感分析以预测股市的走势,准确率可以达到 87.6%,

数据来源


商品评论数据集已放在同级文件夹下。包含衣物、计算机、书籍、平板、水果等 10 个类别的 6 万余条评论数据,并且已标记好正向或负向。其中正向评论 31728 条,负向评论 31046 条,比例接近 1:1,较为均衡。

中文停用词、标点符号数据集由作者本人收集整理制作,共 1659 个,已上传至本页面。

环境配置


CentOS 6.10 Spark 2.3.0 Python 3.6.4

完整的代码:

https://download.csdn.net/download/qq_38735017/87381169

你可能感兴趣的:(计算机毕设,python,自然语言处理,文本分类,情感分析)