最近写爬虫的时候遇到了一个用HTTP 2.0协议的网站,requests那套老经验在它身上不好用了,得专门针对HTTP 2.0进行开发。
因为与HTTP 1.x的爬虫颇有区别,所以写篇文章记录一下。考虑到大多数读者应该更关心实践操作,所以本文会采取倒金字塔结构,首先介绍HTTP 2.0的爬虫代码该怎么写,然后在慢慢讲解HTTP 2.0的基础理论知识。
上面说过,requests的老经验在HTTP 2.0上不好用了,因为requests只能作为HTTP 1.X的客户端使用,尚未支持2.0,而且大家也都知道,requests库的作者Kenneth中文名坑尼斯,名为K神,实则坑神,指望他升级requests支持HTTP 2.0还不如指望骑马与砍杀早日出3(手动狗头),所以要另寻高明了。
四处看了一圈,目前python中比较好的选择就是hyper了,虽然年久失修,github上关注度也不高,作者似乎也弃坑了,但起码它能动起来……如果有更好的选择跪求推荐。
下面就来看一下hyper的代码怎么写。
from hyper import HTTP20Connection
HEADERS = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/80.0.3987.149 Safari/537.36"
}
if __name__ == "__main__":
with HTTP20Connection(
host="jobs.zhaopin.com",
secure=True,
# proxy_host="123.123.123.123:12345", # 在本地windows无法挂代理
) as conn:
req = conn.request(
"GET",
"/CC473390084J00530078001.htm", # '/path/segment'
headers=HEADERS
)
rsp = conn.get_response(req)
rsp_content = rsp.read()
rsp_text = rsp_content.decode()
print(rsp_text)
建立连接:
代码其实很好理解,先用HTTP20Connection()
建立一个HTTP 2.0连接,类似requests中建立一个session,需要注意的是,由于协议本身的问题,hyper不支持requests直接发一个requests.get()
这样的写法。用with进行上下文管理是为了省略手动close()
的步骤。
挂代理:
可以看到proxy_host这行被我注释掉了,因为windows中hyper挂不了代理,这是个大坑,且听我细细道来。
首先,pip install hyper
安装的不是最新版hyper,pip能安装到的最新的一个版本,是不支持HTTPS+2.0+代理这个组合的,hyper的源码是这么写的:
if self.secure:
assert not self.proxy_host, "Proxy with HTTPS not supported."
然而现实中使用2.0的网站几乎100%使用了HTTPS。那么看到这里你可能要喷了,不能挂代理的垃圾库,怎么用来写爬虫?
别慌,我们可以去github上获取他的最新版本,最新版本已经支持HTTPS挂代理了,但是没有在pip上发布,这也是为什么我认为作者弃坑了……从github上获取源码手动安装可能会稍微麻烦一丢丢,但为了能挂代理,也值了。
但是,这个挂代理的大坑到这里还没有结束。最新版挂代理的功能在windows下用不了呵呵呵呵呵,不知道是不是SSL环境问题之类的,不过在linux底下倒是很OK,所以可以本地开发的时候不挂代理,在Linux上运行时再挂上。
好了,挂代理的问题说完了,接着往下讲。
请求页面信息:
和名为"jobs.zhaopin.com"的主机建立连接后,就尝试用get方法取获取一个页面的信息。放心,虽然2.0了,get/post这些老朋友还是在的。
但这里还有一个地方是和requests有显著区别的,requests中,通常是res=requests.get()
,发起get请求后得到的是一个response对象,但这里不同,从变量的命名就能看出来,这里我写的是req=conn.request()
,显然是request的缩写,因此还需要再去获取一下这个请求对应的响应conn.get_response(req)
。这个区别是由于2.0的多路复用特性导致的,下文基础理论部分会细说。
最后,HTTP 2.0传输的是二进制字节流,所以拿到响应要看的话得decode()
一下哦。
——“我就是要用requests!不让我用我就不写爬虫了!我辞职!”
——“那要不你写一个支持2.0的requests?”
——“我不会!我不管!我就是要用requests!”
对于这种令人脑阔疼的小老弟,hyper作者早有准备,但是请先接受一波嘲讽:
Do you like requests? Of course you do, everyone does! It’s a shame that requests doesn’t support HTTP/2 though.
嘲讽完了就该上代码了
import requests
from hyper.contrib import HTTP20Adapter
s = requests.Session()
s.mount('https://http2bin.org', HTTP20Adapter())
r = s.get('https://http2bin.org/get')
print(r.status_code)
既然是非要用requests的选手,那想必对它的底层应该是了如指掌了,这一小段代码的原理也就无需我赘述了。
学院派请移步RFC7540,我这里主要挑HTTP 2.0的特点、优点,以及和爬虫相关的理论知识讲一讲,RFC文档可是整整96页呢。
另外,牢记一点,2.0的一切改变,都是为了让大家浏览网页更快、更安全。
HTTP 1.X的数据包就是起始行+头部+正文,按顺序逐行来,这是任何一个爬虫工程师都应该滚瓜烂熟的东西了。2.0则把这个包给拆开了,并且不再是报文的形式。
1.x的头部和正文分别被拆成了HEADERS帧和DATA帧,采用二进制编码,不再明文传输。也就是说,抓包的时候,看到的是头归头,正文归正文,各自独立的。
说到抓包再插个嘴,fiddler之类的抓包工具是抓不了2.0的,你会看到一些奇怪的、和实际网络传输情况并不一致的抓包结果。
2.0优化的一个重头戏,就是对头部的压缩,叫做HPACK算法。
大家一致认为,HTTP的头部太啰嗦了,差不多的内容反反复复的传过来传回去,极其浪费!而且有些可恶的开发者,cookie洋洋洒洒写个几K东西进去,害的HTTP数据包每一躺行程都要负重前行。
既然很多头部信息是来回重复传输的,那么客户端和服务端各自维护一个索引表,双方心知肚明就行了,何必重复传输呢?
HPACK算法,一句话解释一下,大致就是用哈夫曼编码噼里啪啦一顿操作把HEADER变小了。具体解释一下,RFC7541写了55页,自己看吧。
所谓多路复用,即在一个TCP连接中存在多个流,即可以同时发送多个请求,对端可以通过帧中的表示知道该帧属于哪个请求。在客户端,这些帧乱序发送,到对端后再根据每个帧首部的流标识符重新组装。通过该技术,可以避免HTTP旧版本的队头阻塞问题,极大提高传输性能。
单一长连接,可以理解成requests里建立一个session,然后在这个session里来回传数据。建立TCP连接的成本还是比较高的,所以一个TCP连接反复使用非常划算。
上面提到的维护头部索引表,客户端和服务端能够做到双方心知肚明,就是因为这个单一长连接的存在,HTTP 1.x这种环境是无法实现维护一个索引表的。
服务端主动推送,可以说是HTTP 2.0中我最喜欢的一个特性。
比如你打开一个网页,在1.x中,你请求html,服务器返回html给你,然后你请求css,服务器返回css文件给你,然后js,然后img,大家排好队一个个来,你不请求,服务器是不会给你的。
但是在2.0中就不同了,既然你访问了我的网页,而且你没缓存我网页的css和js文件,那服务器把这些资源发给你不是理所当然的事吗,为什么要等你请求了再给你呢,主动给你推送过来不香吗。
当然,主动推送也不能霸王硬上弓,你设置好拒绝主动推送的话服务端也不会强行塞给你的。
HTTP 2.0目前还没有大范围的推广开来,但我隐隐感觉未来2.0的爬虫和反爬对抗会比现在更为艰难,叹气.jpg……