Python采集热搜评论数据,制作词云分析,又是吃瓜的一天

前言

最近微博上的爆的热搜是不少啊,咳咳,23年1月31号记汪峰旷工一次

Python采集热搜评论数据,制作词云分析,又是吃瓜的一天_第1张图片

之前有营销号预言23年的娃瓜 已经爆出来一个了 好像是说还有两个来着 也不知道是谁的娃~

现在已经没有什么可以震惊到我的了 胡歌都有娃了 彭于晏抓紧吧

有点点的无聊 就来用Python采集一些热门评论 做个词云图 来看看吧

Python采集热搜评论数据,制作词云分析,又是吃瓜的一天_第2张图片

开发环境

  • python 3.8: 解释器
  • pycharm: 代码编辑器
  • requests: 发送请求
  • parsel: 解析数据 jieba pandas stylecloud

爬虫实现流程

一. 思路分析

  • 找到数据来源
  • network 记录网页数据 请求

二. 实现代码

  1. 发送请求
  2. 获取数据
  3. 解析数据
  4. 保存数据

主要代码

准备模块

import requests     # 需要额外安装
import csv
# 半成品 (最基本的架构)
# 分布式
f = open('评论.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.writer(f)
csv_writer.writerow(['id', 'text_raw', 'source', 'like_counts', 'screen_name', 'followers_count'])
# 请求头
headers = {
    # 用户身份信息
    'cookie': '',
    # 防盗链
    'referer': 'https://weibo.com/1223178222/MqQsvemFc',
    # 浏览器基本信息
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'
}
next = 'count=10'
while True:
    url = f'https://*****/ajax/statuses/buildComments?is_reload=1&id=4863981833423714&is_show_bulletin=2&is_mix=0&{next}&uid=1223178222'

1. 发送请求

esponse = requests.get(url=url, headers=headers)

2. 获取数据

# .text: 获取文本数据
# .json(): json字符串数据
# .content: 获取二进制数据
# 2.1 出现乱码
json_data = response.json()

3. 解析数据

  • 结构化数据 : json数据{}包裹的格式 转成字典, 使用字典取值 re
  • 非结构化数据: 网页源代码 lxml, bs4, parsel, re
python学习交流Q群:770699889 ### 源码领取
css/xpath/re
data_list = json_data['data']
max_id = json_data['max_id']
for data in data_list:
    text_raw = data['text_raw']
    try:
        source = data['source']
    except:
        source = "未知"
    id = data['id']
    like_counts = data['like_counts']
    screen_name = data['user']['screen_name']
    followers_count = data['user']['followers_count']
    print(id, text_raw, source, like_counts, screen_name, followers_count)

4. 保存数据

        csv_writer.writerow([id, text_raw, source, like_counts, screen_name, followers_count])
    next = 'max_id='+str(max_id)

词云图

这里词云图的 图案 都是可以改的

这里的话 我就先用用这个咯

大多数网友都是恭喜恭喜胡歌呀

哈哈 还看到有人催他赶紧拍戏的
Python采集热搜评论数据,制作词云分析,又是吃瓜的一天_第3张图片

最后

对于 刚开始学习python,以及对python感兴趣的宝子,小圆给大家准备了全新的Python学习资料,送给各位正在学习Python或者还没开始学的小伙伴,包含了Python新手软件工具礼包、基础视频教程/电子书、项目实战电子书/视频教程等等,直接在文末名片自取就好了

这里还有一些案例的视频教程也可以用来学习哦

【Python案例教学】最适合零基础学习的实用案例,手把手带练,让你成为下一个Python大神

你可能感兴趣的:(python,python,开发语言)