无须代码爬取豆瓣热门电影评论,并制作词云

使用到的工具有

  • Web Scraper
  • pycharm+anaconda
  • github jieba分词
  • wordart 网站
    1 抓取数据
    web scraper是一个谷歌浏览器插件,如果可以科学上网的话直接去下载。不能科学上网的话就只能在网上找了。
    安装好插件后开启 web Scaper
    在谷歌浏览器种按下F12 打开开发者工具无须代码爬取豆瓣热门电影评论,并制作词云_第1张图片
    详细操作看我录制的视频,比图文更好一些。把链接中间的空格去掉。
    链接:https: // pan. baidu. com/s/113z_bRVbjqX8eyr6rfG5vQ
    提取码:9h3l

无须代码爬取豆瓣热门电影评论,并制作词云_第2张图片
在github上下载jieba分词
windows系统的话打开cmd 进入python.exe所在目录.输入python setup.py install
打开pycharm设置好annaconda解释器

# -*- coding: UTF-8 -*-
import numpy as np
import pandas as pd
import jieba
import jieba.analyse
import codecs

# 设置pd的显示长度
pd.set_option('max_colwidth', 500)

# 载入数据
rows = pd.read_csv('D:\\seven_samurai.csv', header=0, encoding='utf-8', dtype=str)

segments = []
for index, row in rows.iterrows():
    content = row[1]
    # TextRank 关键词抽取,只获取固定词性
    words = jieba.analyse.textrank(content, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
    splitedStr = ''
    for word in words:
        # 记录全局分词
        segments.append({'word': word, 'count': 1})
        splitedStr += word + ' '
dfSg = pd.DataFrame(segments)

# 词频统计
dfWord = dfSg.groupby('word')['count'].sum()
# 导出csv
dfWord.to_csv('D:\\keywords.csv', encoding='utf-8')

运行完毕后会生成
在这里插入图片描述

将词频导入,记住是分号隔开的,可以用notepad++打开后替换
字体必须是中文字体,不然词云是乱码的。

你可能感兴趣的:(爬虫)