雪球网爬作者攻略

雪球网可以不用登录爬去,但是在访问https://xueqiu.com/时,相应会带有cookies,后续爬取访问作者页面时,需要带上cookies

首先访问https://xueqiu.com/,在response.headers中可以得到cookies

cookies是从https://assets.imedao.com/ugc/js/main.e67d488673.js这个js文件中得来,稍后分析

访问作者页面,例如https://xueqiu.com/u/1285144073#/follow时,关注粉丝 和 关注人列表都是ajax加载的,分别为:

https://xueqiu.com/statuses/original/show.json?user_id=1285144073  和

https://xueqiu.com/friendships/groups/members.json?uid=1285144073&page=2&gid=0

访问这两个网页时,需要带上cookies

https://xueqiu.com/statuses/original/show.json?user_id=1285144073返回字符串,可以转换为json格式,提取关注和粉丝数量

你可能感兴趣的:(雪球网爬作者攻略)