http请求头详解and爬虫

爬虫离不开http协议,在模拟请求的时候,请求头伪装的越像越好。我自己在这里总结一下请求头里所有(如果有落下请留言提醒我)参数详情,更多的侧重爬虫。

请求头大小写识别,首字母大写。文中client,客户端,浏览器为同义语。

Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8
Accept-Encoding:gzip, deflate, sdch
Accept-Language:zh-CN,zh;q=0.8
Cache-Control:max-age=0
Connection:keep-alive
Cookie:PHPSESSID=web2~qq1t4s3pab6e0ovmk1ulvqdff5; _ga=GA1.2.1252961155.1503028290; Hm_lvt_e23800c454aa573c0ccb16b52665ac26=1509010671,1509010711,1509065270,1509084318; Hm_lpvt_e23800c454aa573c0ccb16b52665ac26=1509084318
Host:segmentfault.com
Referer:https://www.baidu.com/link?url=lPVKa2fqWo1qlfGgwjNjkhFEJZr3VqzSO0dsmKslrXJd1a57vWbkb9NQupBDlfuS6FRBsuWJ6cpEUVvANfh2Q_&wd=&eqid=ce66e6c00000f9d70000000559ef0139
Upgrade-Insecure-Requests:1
User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0

Cache-Control

指定了服务器和客户端在交互时遵循的缓存机制,即是否要留下缓存页面数据。
一般在使用浏览器访问时,都会在计算机本地留下缓存页面,相当于是浏览器中的页面保存和下载选项。但是爬虫就是为了从网络上爬取数据,所以几乎不会从缓存中读取数据。所以在设置的时候要侧重从服务器请求数据而非加载缓存。

  • no-cache:客户端告诉服务器,自己不要读取缓存,要向服务器发起请求
  • no-store:同时也是响应头的参数,请求和响应都禁止缓存,即不存储
  • max-age=0:表示当访问过此网页后的多少秒内再次访问,只加载缓存,而不去服务器请求,在爬虫时一般就写0秒

一般爬虫就使用以上几个参数,其他的参数都是接受缓存的,所以就不列出了。

User-Agent

中文名用户代理,服务器从此处知道客户端的 操作系统类型和版本,电脑CPU类型,浏览器种类版本,浏览器渲染引擎,等等。这是爬虫当中最最重要的一个请求头参数,所以一定要伪造,甚至多个。如果不进行伪造,而直接使用各种爬虫框架中自定义的user-agent,很容易被封禁。举例:

  • User-Agent: Mozilla/5.0 (X11; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0
  • User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36

网上有很多的用户代理大全,用户代理大全越多越好,用以伪造多个请求头。

Accept

指定客户端可以接受的内容类型,比如文本,图片,应用等等,内容的先后排序表示客户端接收的先后次序,每种类型之间用逗号隔开。
其中,对于每一种内容类型,分号 ; 后面会加一个 q=0.6 这样的 q 值,表示该种类型被客户端喜欢接受的程度,如果没有表示 q=1,数值越高,客户端越喜欢这种类型。
爬虫的时候,我一般会伪造若干,将想要找的文字,图片放在前面,其他的放在后面,最后一定加上*/*;q=0.8。

  • 比如Accept: image/gif,image/x-xbitmap,image/jpeg,application/x-shockwave-flash,application/vnd.ms-excel,application/vnd.ms-powerpoint,application/msword,*/*
  • text/xml,text/shtml:文本类型,斜杠后表示文档的类型,xml,或者shtml
  • application/xml,application/xhtml+xml:应用类型,后面表示文档类型,比如 flash动画,excel表格等等
  • image/gif,image/x-xbitmap:图片类型,表示接收何种类型的图片
  • */*:表示接收任何类型,但是这一条一般写在最后,表示优先接收前面规定的类型,然后再加载其他类型。

Accept-Language

客户端可以接受的语言类型,参数值规范和 accept的很像。一般就接收中文和英文,有其他语言需求自行添加。比如:

  • Accept-Language: zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4
  • zh-CN:中文简体大陆?
  • zh:其他中文
  • en-US:英语美语
  • en:其他英语

Accept-Encoding

客户端接收编码类型,一些网络压缩格式。我看了很多常见的请求头,基本上都不变,就是如下:

  • Accept-Encoding: gzip, deflate, sdch。相对来说,deflate是一种过时的压缩格式,现在常用的是gzip

Accept-Charset

指的是规定好服务器处理表单数据所接受的字符集,也就是说,客户端浏览器告诉服务器自己的表单数据的字符集类型,用以正确接收。若没有定义,则默认值为“unknown”。如果服务器没有包含此种字符集,就无法正确接收。一般情况下,在爬虫时我不定义该属性,如果定义,例子如下:

  • Accept-Charset:gb2312,gbk;q=0.7,utf-8;q=0.7,*;q=0.7

Referer

浏览器上次访问的网页url,uri。由于http协议的无记忆性,服务器可从这里了解到客户端访问的前后路径,并做一些判断,如果后一次访问的 url 不能从前一次访问的页面上跳转获得,在一定程度上说明了请求头有可能伪造。
我在爬虫时,起始入口我会给一个随意的百度搜索地址,然后,在爬取过程中,不断将索引页面的url添加在伪造请求头中。

DNT

是 do not track 的缩写,告诉服务器,浏览器客户端是否禁止第三方网站追踪。这一条主要是用来保护浏览器用户隐私的,通过此功能,用户可以检测到跨站跟踪、cookie跟踪等等。
在爬虫时一般都是禁止的。数字1代表禁止追踪,0代表接收追踪,null代表空置,没有规定。

Connection

请求头的 header字段指的是当 client 浏览器和 server 通信时对于长链接如何处理。由于http请求是无记忆性的,长连接指的是在 client 和server 之间建立一个通道,方便两者之间进行多次数据传输,而不用来回传输数据。有 close,keep-alive 等几种赋值,close表示不想建立长连接在操作完成后关闭链接,而keep-alive 表示希望保持畅通来回传输数据。

此外,connection还可以存放一些自定义声明,比如:

  • Connection: my-header, close, my-connection
  • My-Header: xxx

其中,my-header指的是当前访问请求中使用的请求头,close表示数据传输完毕后不保持畅通,关闭链接,my-connection具体含义还没有查清楚。

在爬虫时我一般都建立一个长链接。

Proxy-Connection

当使用代理服务器的时候,这个就指明了代理服务器是否使用长链接。但是,数据在从client 到代理服务器,和从代理服务器到被请求的服务器之间如果存在信息差异的话,会造成信息请求不到,但是在大多数情况下,都还是能够成立的。

Pragma

和 cache-control类似的一个字段,但是具体什么含义我还没有查清楚,一般爬虫时我都写成 no-cache。

Cookie

同样是一个比较关键的字段,Cookie是 client 请求 服务器时,服务器会返回一个键值对样的数据给浏览器,下一次浏览器再访问这个域名下的网页时,就需要携带这些键值对数据在 Cookie中,用来跟踪浏览器用户的访问前后路径。
在爬虫时,我会根据前次访问得到 cookie数据,然后添加到下一次的访问请求头中。

Upgrade-Insecure-Requests

自动将不安全的访问请求转换成安全的请求 request。赋值数字1表示可以,0就表示不可以。

Host

访问的服务器主机名,比如百度的 www.baidu.com。这个值在爬虫时可以从 访问的 URI 中获得。

If-Modified-Since

只有当所请求的内容在指定的日期之后又经过修改才返回它,否则返回304。其目的是为了提高访问效率。但是在爬虫时,不设置这个值,而在增量爬取时才设置一个这样的值,用以更新信息。

Authorization

当客户端接收到来自WEB服务器的 WWW-Authenticate 响应时,该头部来回应自己的身份验证信息给WEB服务器。主要是授权验证,确定符合服务器的要求。这个在爬虫时按需而定。

Range

浏览器告诉 WEB 服务器自己想取对象的哪部分。这个在爬虫时我接触比较少,一般都是爬取整个页面,然后再做分析处理。

还有一些别的属性字段,我再补充。
一个典型的适用于爬虫爬取数据的伪造请求头如下所示:

"Proxy-Connection": "keep-alive",
"Pragma": "no-cache",
"Cache-Control": "no-cache",
"User-Agent": "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
"DNT": "1",
"Accept-Encoding": "gzip, deflate, sdch",
"Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4",
"Referer": "https://www.baidu.com/s?wd=%BC%96%E7%A0%81&rsv_spt=1&rsv_iqid=0x9fcbc99a0000b5d7&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&rqlang=cn&tn=baiduhome_pg&rsv_enter=0&oq=If-None-Match&inputT=7282&rsv_t=3001MlX2aUzape9perXDW%2FezcxiDTWU4Bt%2FciwbikdOLQHYY98rhPyD2LDNevDKyLLg2&rsv_pq=c4163a510000b68a&rsv_sug3=24&rsv_sug1=14&rsv_sug7=100&rsv_sug2=0&rsv_sug4=7283",
"Accept-Charset": "gb2312,gbk;q=0.7,utf-8;q=0.7,*;q=0.7",

你可能感兴趣的:(http协议)