咱们先看粉丝
点击热巴的粉丝,然后F12开发者模式,然后刷新,依次点击Network
-> XHR
-> friends?relate=fans...
-> Preview
, 你就会发现,热巴的粉丝的账户信息(uid,性别,个性签名, 认证信息,所在地区等等)
我给你们摘出来了请求但这个只是一页的,想获取所有的那就继续往下看吧!
https://www.weibo.com/ajax/friendships/friends?relate=fans&page=1&uid=1669879400&type=all&newFollowerCount=0
很明显,他有两个参数:
如果你能掌管好这两个参数,那数据不就是手到擒来嘛!
是get请求,返回数据格式是json
格式,编码为utf-8
突然发现这几次实战请求方式都是GET
请求,这可不行,下下期吧,我出一期POST
请求的,也让大家看看POST
和GET
有啥区别。
回归正题~下一步就是编写代码了。
知道了url规则,以及返回数据的格式,那现在咱们的任务就是构造url然后请求数据
uid不是问题,那怎么知道他有多少页呢
这个简单:
第一页
第二页
发现没,previous_cursor的数量加了20,而咱们请求一页数据返回的用户的数量正好是20个,totao_number对应的是该博主总粉丝数量,知道这两点,那咱们不就好办了,最大页数不就得是total_number/20
,不能整除就加一,最后也就是 ⌈ t o t a l _ n u m b e r 20 ⌉ \lceil \frac{total\_number}{20} \rceil ⌈20total_number⌉这个都懂吧。
uid = ['1669879400']
for id in uid:
# 先获取总的粉丝数量
url = "https://www.weibo.com/ajax/friendships/friends?relate=fans&page={}&uid={}&type=all&newFollowerCount=0"
html = get_html(url.format(1, id))
response = json.loads(html)
total_number = response['total_number']
# 然后依次爬取每一页的数据
for page in range(1, math.ceil(total_number/20) + 1):
html = get_html(url.format(page, id))
只要在uid这个列表里添加用户id,这样就可以实现多个用户粉丝数据的抓取了。
对于每个url我们都要去用requests库中的get方法去请求数据:
所以我们为了方便就把请求网页的代码写成了函数get_html(url),传入的参数是url返回的是请求到的内容。
def get_html(url):
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36",
"Referer": "https://weibo.com"
}
cookies = {
"cookie": "你的cookie"
}
response = requests.get(url, headers=headers, cookies=cookies)
time.sleep(5) # 加上5s 的延时防止被反爬
return response.text
注意这里一定要把你的cookie替换掉,不然请求不到内容。
cookies获取方式
将获得的数据格式化为json
格式的数据,然后提前他的粉丝的信息
response = json.loads(html)
fans_list = response['users']
data = {} # 创建一个字典存放数据
for fan in fans_list:
data['uid'] = fan['id'] # 用户id
data['screen_name'] = fan['screen_name'] # 用户昵称
data['description'] = fan['description'] # 个性签名
data['gender'] = fan['gender'] # 性别
data['followers_count'] = fan['followers_count'] # 粉丝的粉丝数量
data['friends_count'] = fan['friends_count'] # 粉丝的关注数量
data['statuses_count'] = fan['statuses_count'] # 粉丝的博文数量
# 还有很多信息可以得到,我这里就不再举例子了
封装了一个函数:
def save_fans_data(data):
title = ['screen_name', 'description', 'followers_count', 'friends_count', 'statuses_count', 'gender', 'verified', 'verified_reason', 'birthday', 'created_at', 'sunshine_credit', 'company', 'school']
with open("fans_data.csv", "a", encoding="utf-8", newline="")as fi:
fi = csv.writer(fi)
fi.writerow([data[k] for k in title])
再来看关注
你可以先去自己看一下,是不是和爬取粉丝数据的方式一样呀,自己尝试着编写一下代码吧~
# -*- coding:utf-8 -*-
# @time: 2021/7/24 21:52
# @Author: 韩国麦当劳
# @Environment: Python 3.7
import json
import requests
import csv
import time
import math
def get_html(url):
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36",
"Referer": "https://weibo.com"
}
cookies = {
"cookie": "你的cookie"
}
response = requests.get(url, headers=headers, cookies=cookies)
time.sleep(5) # 加上5s 的延时防止被反爬
return response.text
def save_fans_data(data):
title = ['uid', 'id', 'screen_name', 'description', 'followers_count', 'friends_count', 'statuses_count', 'gender']
with open("fans_data.csv", "a", encoding="utf-8", newline="")as fi:
fi = csv.writer(fi)
fi.writerow([data[k] for k in title])
def save_followers_data(data):
title = ['uid', 'id', 'screen_name', 'description', 'followers_count', 'friends_count', 'statuses_count', 'gender']
with open("followers_data.csv", "a", encoding="utf-8", newline="")as fi:
fi = csv.writer(fi)
fi.writerow([data[k] for k in title])
def get_fans_data(id):
# 先获取总的粉丝数量
url = "https://www.weibo.com/ajax/friendships/friends?relate=fans&page={}&uid={}&type=all&newFollowerCount=0"
html = get_html(url.format(1, id))
response = json.loads(html)
total_number = response['total_number']
# 然后依次爬取每一页的数据
for page in range(1, math.ceil(total_number/20) + 1):
html = get_html(url.format(page, id))
response = json.loads(html)
fans_list = response['users']
data = {} # 创建一个字典存放数据
for fan in fans_list:
data['uid'] = id
data['id'] = fan['id'] # 用户id
data['screen_name'] = fan['screen_name'] # 用户昵称
data['description'] = fan['description'] # 个性签名
data['gender'] = fan['gender'] # 性别
data['followers_count'] = fan['followers_count'] # 粉丝的粉丝数量
data['friends_count'] = fan['friends_count'] # 粉丝的关注数量
data['statuses_count'] = fan['statuses_count'] # 粉丝的博文数量
# 还有很多信息可以得到,我这里就不再举例子了
save_fans_data(data)
def get_followers_data(id):
# 先获取总的关注的数量
url = "https://www.weibo.com/ajax/friendships/friends?page={}&uid={}"
html = get_html(url.format(1, id))
response = json.loads(html)
total_number = response['total_number']
# 然后依次爬取每一页的数据
for page in range(1, math.ceil(total_number / 20) + 1):
html = get_html(url.format(page, id))
response = json.loads(html)
fans_list = response['users']
data = {} # 创建一个字典存放数据
for fan in fans_list:
data['uid'] = id
data['id'] = fan['id'] # 用户id
data['screen_name'] = fan['screen_name'] # 用户昵称
data['description'] = fan['description'] # 个性签名
data['gender'] = fan['gender'] # 性别
data['followers_count'] = fan['followers_count'] # 关注的粉丝数量
data['friends_count'] = fan['friends_count'] # 关注的关注数量
data['statuses_count'] = fan['statuses_count'] # 关注的博文数量
# 还有很多信息可以得到,我这里就不再举例子了
save_followers_data(data)
if __name__ == '__main__':
uid = ['1669879400'] # 如果想获取多个人的粉丝关注信息,就在后面依次加上uid
for id in uid:
get_fans_data(id)
get_followers_data(id)
获得的部分数据截图(以前是我不好,从今以后获得的数据只要是涉及到隐私的全部打码处理)。
下期预告:
百度指数对于一个关键词的搜索指数和咨询指数的抓取,提前剧透一下:js
加密数据哟~
欢迎一键三连哦!
还想看哪个网站的爬虫?欢迎留言,说不定下次要分析的就是你想要看的!