最近微博上的爆的热搜是不少啊,咳咳,23年1月31号记汪峰旷工一次
之前有营销号预言23年的娃瓜 已经爆出来一个了 好像是说还有两个来着 也不知道是谁的娃~
现在已经没有什么可以震惊到我的了 胡歌都有娃了 彭于晏抓紧吧
有点点的无聊 就来用Python采集一些热门评论 做个词云图 来看看吧
一. 思路分析
二. 实现代码
import requests # 需要额外安装
import csv
# 半成品 (最基本的架构)
# 分布式
f = open('评论.csv', mode='a', encoding='utf-8-sig', newline='')
csv_writer = csv.writer(f)
csv_writer.writerow(['id', 'text_raw', 'source', 'like_counts', 'screen_name', 'followers_count'])
# 请求头
headers = {
# 用户身份信息
'cookie': '',
# 防盗链
'referer': 'https://weibo.com/1223178222/MqQsvemFc',
# 浏览器基本信息
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'
}
next = 'count=10'
while True:
url = f'https://*****/ajax/statuses/buildComments?is_reload=1&id=4863981833423714&is_show_bulletin=2&is_mix=0&{next}&uid=1223178222'
esponse = requests.get(url=url, headers=headers)
# .text: 获取文本数据
# .json(): json字符串数据
# .content: 获取二进制数据
# 2.1 出现乱码
json_data = response.json()
python学习交流Q群:770699889 ### 源码领取
css/xpath/re
data_list = json_data['data']
max_id = json_data['max_id']
for data in data_list:
text_raw = data['text_raw']
try:
source = data['source']
except:
source = "未知"
id = data['id']
like_counts = data['like_counts']
screen_name = data['user']['screen_name']
followers_count = data['user']['followers_count']
print(id, text_raw, source, like_counts, screen_name, followers_count)
csv_writer.writerow([id, text_raw, source, like_counts, screen_name, followers_count])
next = 'max_id='+str(max_id)
这里词云图的 图案 都是可以改的
这里的话 我就先用用这个咯
大多数网友都是恭喜恭喜胡歌呀
对于 刚开始学习python,以及对python感兴趣的宝子,小圆给大家准备了全新的Python学习资料,送给各位正在学习Python或者还没开始学的小伙伴,包含了Python新手软件工具礼包、基础视频教程/电子书、项目实战电子书/视频教程等等,直接在文末名片自取就好了
这里还有一些案例的视频教程也可以用来学习哦
【Python案例教学】最适合零基础学习的实用案例,手把手带练,让你成为下一个Python大神