python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)...

【芝麻IP代理】三、数据分析与可视化

1、获取cookies

城市信息筛选中文字

python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)..._第1张图片

匹配pyecharts支持的城市列表

python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)..._第2张图片

2、基于snownlp的情感分析

关于snownlp的作用,主要可以进行中文分词、词性标注、情感分析、文本分类、转换拼音、繁体转简体、提取文本关键词、提取摘要、分割句子、文本相似。官网链接:https://pypi.org/project/snownlp/

由于snownlp全部是unicode编码,所以要注意数据是否为unicode编码。因为是unicode编码,所以不需要去除中文文本里面含有的英文,因为都会被转码成统一的编码上面只是调用snownlp原生语料库对文本进行分析,snownlp重点针对购物评价领域,所以为了提高情感分析的准确度可以采取训练语料库的方法。

python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)..._第3张图片

3、评论来源城市分析

调用pyecharts的page函数,可以在一个图像对象中创建多个chart,只需要对应的add即可。

python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)..._第4张图片

python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)..._第5张图片

python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)..._第6张图片

4、影片情感分析

0.5以下为负面情绪,0.5以上为正面情绪。可以看到好评还是很不错的,至于豆瓣上一些看衰评论只是少数。

5、电影评分走势分析读取csv文件,以dataframe(df)形式保存

遍历df行,保存到list

统计相同日期相同评分的个数

转换为df格式,设置列名

按日期排序

遍历新的df,每个日期的评分分为5种,因此需要插入补充缺失数值。

python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)..._第7张图片

python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)..._第8张图片

python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)..._第9张图片

由于允许爬取的量少和时间问题,部分数据不是很明显。但依然可以得出一些发现。在影片上映开始的一周内,为评论高峰,尤其是上映3天内,这符合常识,但是也可能有偏差,因为爬虫获取的数据是经过豆瓣电影排序的,倘若数据量足够大得出的趋势可能更接近真实情况。

另外发现,影片在上映前也有部分评论,分析可能是影院公映前的小规模试映,且这些提前批的用户的评分均值,差不多接近影评上映后的大规模评论的最终评分 ,从这些细节中,我们或许可以猜测,这些能提前观看影片的,可能是资深影迷或者影视从业人员,他们的评论有着十分不错的参考价值。

6、影评词云图

词云图制作时,先读取CSV文件然后dataframe形式保存,去除评论中非中文文本,选了胡歌照片作为背景,并设置了停用词表。

1550556531906901.jpg

可以看到高频词“可以”表现出对该片的认可,“特效”体现出特效镜头对科幻片的重要性,“科幻电影”体现出影迷对科幻类电影的浓厚兴趣。

以上就是本次爬取豆瓣网《流浪地球》短评的过程与数据分析。

芝麻动态换IP软件可以实现一键IP自动切换,千万IP库存,自动去重,支持电脑、手机多端使用,智能加速技术多IP池自动分配,数据优化智能模拟百万IP访问,芝麻代理作为动态IP行业的领导者,旨在为各行业提供最优质的网络服务,我们可以为您提供安全高效的IP服务,为您量身打造行业资讯推荐、软件使用技巧,更有专业人士为您定制IP服务,是您建站维护的首要选择。官网可领取免费试用时长,更多问题请点击官网咨询客服。————芝麻动态ip代理运营管理团队

芝麻IP代理软件支持电脑客户端,安卓手机、ios手机,模拟器,虚拟机,云手机一键更换全国IP地址,欢迎访问: www.zhimaruanjian.com 。

你可能感兴趣的:(python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)...)