爬虫:设置Request Header(请求头)

原文地址

分类目录——爬虫

Request Header(请求头)是在http协议中封装的内容,在在很多网站中,会对请求头中的信息有所要求,或者是因为用作验证来反爬虫,或者是获得浏览器的信息以提供针对性的反馈等等,当缺少这些请求头信息时,有些网站可能会对请求不予反馈,或者返回错误信息。

这就需要在通过代码访问的时候追加这些信息

下面以一个例子来说明

以 https://dig.chouti.com/ 这个网站为例,在浏览器中访问这个网站,在网页中右击 =》查看源代码

爬虫:设置Request Header(请求头)_第1张图片

在通过代码访问时,当只传入url=‘https://dig.chouti.com/’时,是无法获取网络的反馈的

r1 = requests.get(
    url='https://dig.chouti.com/',
)
print(r1.text)
# 在这里只提供其中几行
# 
# 
# 网站防火墙
#