【大数据处理与可视化】八、文本数据分析

【大数据处理与可视化】八、文本数据分析

  • 实验目的
  • 实验内容
  • 实验步骤
    • 一、案例——商品评价分析
      • 1、读取数据,并转换成DataFrame对象进行展示。
      • 2、从输出的结果看,多条评价信息是没用且重复的,所以,要用pandas中的drop_duplicates()方法删除重复的数据。
      • 3、删除完重复数据后,计算机仍然不能分析出商品的好坏,这主要是因为文本的信息量是比较庞大的,我们需要对这些文本进行分析等预处理操作,以便统计词频。
      • 4、从输出的列表可以看出,分词的结果中有很多诸如“了”,“一个”,“是”等字或词,它们对于分析用户评价是没有意义的,需要参考中文停用词表,将这些没有意义的词进行删除。
      • 5、在删除停用词之后,从输出的结果可以大致看出评价的特征信息,不过后期还是需要统计这些词语出现的次数,才能进一步知晓用户对商品的喜恶。
      • 6、使用wordcloud模块进行词云展示,wordcloud模块将出现频率高的词语进行放大显示,而出现频率低的词语进行缩小显示。
  • 实验小结


实验目的

       能够熟练运用文本数据分析对文本数据进行分析。


实验内容

       商品评价分析:本实验将针对某宝网站中某卫衣的用户评价进行简单的分析,并使用词云渲染一些关键词。词云是对网络中出现的频率比较高的“关键词”予以视觉上的突出,形成关键词渲染,从而过滤掉大量的文本信息,使得浏览网页的人一眼扫过文本就可以领略文本的主旨。首先获取某网站中用户对某卫衣的评价,然后从这些评论文本中筛选出现频率较高的一些词语,并使用词云的方式进行展示,让有意购买此商品的用户能够快速地了解其他用户对该商品的感受,并为他们提供有效的参考依据。


实验步骤

一、案例——商品评价分析

1、读取数据,并转换成DataFrame对象进行展示。

代码:

import pandas as pd
from nltk import FreqDist
import jieba
file_path = open(r'D:\test.csv')
file_data = pd.read_csv(file_path)
file_data

截图:

【大数据处理与可视化】八、文本数据分析_第1张图片


2、从输出的结果看,多条评价信息是没用且重复的,所以,要用pandas中的drop_duplicates()方法删除重复的数据。

代码:

file_data = file_data.drop_duplicates()
file_data

截图:

【大数据处理与可视化】八、文本数据分析_第2张图片


3、删除完重复数据后,计算机仍然不能分析出商品的好坏,这主要是因为文本的信息量是比较庞大的,我们需要对这些文本进行分析等预处理操作,以便统计词频。

代码:

cut_words = jieba.lcut(str(file_data['评价信息'].values),cut_all=False)
cut_words

截图:

【大数据处理与可视化】八、文本数据分析_第3张图片


4、从输出的列表可以看出,分词的结果中有很多诸如“了”,“一个”,“是”等字或词,它们对于分析用户评价是没有意义的,需要参考中文停用词表,将这些没有意义的词进行删除。

代码:

file_path=open(r'D:\停用词表.txt',encoding='utf-8')
stop_words = file_path.read()
new_data = []
for word in cut_words:
    if word not in stop_words:
        new_data.append(word)
new_data

截图:

【大数据处理与可视化】八、文本数据分析_第4张图片


5、在删除停用词之后,从输出的结果可以大致看出评价的特征信息,不过后期还是需要统计这些词语出现的次数,才能进一步知晓用户对商品的喜恶。

代码:

freq_list = FreqDist(new_data)

most_common_words = freq_list.most_common()
most_common_words

截图:

【大数据处理与可视化】八、文本数据分析_第5张图片


6、使用wordcloud模块进行词云展示,wordcloud模块将出现频率高的词语进行放大显示,而出现频率低的词语进行缩小显示。

代码:

from matplotlib import pyplot as plt
from wordcloud import WordCloud

font = r'C:\Windows\Fonts\simkai.ttf'
text = " ".join(new_data)
wc = WordCloud(font_path='msyh.ttc').generate(text)
plt.imshow(wc)
plt.axis('off')
plt.show()

截图:

【大数据处理与可视化】八、文本数据分析_第6张图片


实验小结

       通过本次实验,我能够详述常见图表的类型和特点,能够熟练运用Matplotlib库绘制图表。在实验过程中遇到了很多硬件或者是软件上的问题,请教老师,询问同学,上网查资料,都是解决这些问题的途径。最终将遇到的问题一一解决最终完成实验。
注意事项:
1、有疑问前,知识学习前,先用搜索。
2、熟读写基础知识,学得会不如学得牢。
3、选择交流平台,如QQ群,网站论坛等。
4、尽我能力帮助他人,在帮助他人的同时你会深刻巩固知识。

你可能感兴趣的:(作业报告,数据分析,python,数据挖掘)