爬虫报错返回403状态

问题

爬虫下政策文件
返回403错误码,权限限制,一般来说政府网站不用登入,但也有权限限制,这一般是请求头缺少了。
如:

header = {
                'Content-Type': 'text/html; charset=utf-8',
                'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
                # 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'
            }
url = "https://www.pudong.gov.cn/zwgk/xqjy-jyjzdgz/2023/104/309147.html"
r = requests.get(url, headers=None)
print(r.status_code)

爬虫报错返回403状态_第1张图片

解决

如上面代码,把User-Agent去掉之后就可解决
爬虫报错返回403状态_第2张图片
也可能是缺少其他的字段。
查看其他请求头字段方式
F12开发者模式,请求相关连接,查看请求的请求头复制即可。
Network -> 选择对应请求-> Heaers -> Request Header
爬虫报错返回403状态_第3张图片

你可能感兴趣的:(爬虫,爬虫,python,开发语言)