这一节,主要讲述配置文件configs.py中参数的含义,以及cookie的获取方式。
感兴趣的小伙伴可以收藏哦!
另外,关于本代码的效果展示,以及教程,点击以下链接即可。
目录
一、常用参数
三、代码
1、cookie
cookie是客户端与服务器的一个会话机制,比如做地铁时买的车票。
2、user_id
user_id实际上就是我们所说的id,也就是微博首页网址中的那一串数字。例如迪丽热巴,user_id = 1669879400
3、user_url
uset_url这里设置的是:https://weibo.cn/,原因是因为后面爬取的网页网址大部分都是以这个为前缀的。
4、filter
filter取值为0或1
5、pic_download
pic_download取值为0或1
首先,需要声明的是,这个cookie是一个临时的通行证,具有有效期的,一旦过期,就意味着我们要重新获取。下面,我将讲述获取微博cookie的方法。
1、没有cookie或者cookie过期会怎样?
将会显示“cookie错误或已过期,请重新获取cookie!”
因此,我们只能重新获取cookie,来进行爬取用户数据。
2、如何获取cookie?
configs.py
import argparse
def parse_args():
parser = argparse.ArgumentParser(description='Crawling of microblog information')
# cookie
# parser.add_argument('--cookie', default=your cookie)
# user
"""
user_id: the id of user, such as 1669879400(迪丽热巴)
user_url: the url of user's information
"""
parser.add_argument('--user_id', default=1669879400)
parser.add_argument('--user_url', default='https://weibo.cn/')
# information
"""
filter: 0 or 1 (0: 原创微博 + 转发微博; 1:原创微博)
pic_download: 0 or 1 (0: 不下载原始微博图片; 1: 下载微博原始图片)
"""
parser.add_argument('--filter', default=1)
parser.add_argument('--pic_download', default=1)
return parser.parse_args()
参考: