python爬虫之cookie的HTTPCookieProcessor

通过阅读源码我们可以知道,我们在调用urllib2.urlopen(url)的时候,其实urllib2在open函数内部创建了一个默认的opener对象。然后调用opener.open()函数。
但是默认的opener并不支持cookie。
那么我们先新建一个支持cookie的opener。urllib2中供我们使用的是HTTPCookieProcessor。

创建HTTPCookieProcessor需要闯入一个存放cookie的容器。
Python提供的存放cookie的容器位于cookielib,有以下几个。
CookieJar -> FileCookieJar -> MozillaCookieJar / LWPCookieJar
经典模板

# cookie:爬虫维持登陆状态的机制
import http.cookiejar,urllib.request
cookie = http.cookiejar.CookieJar() # 声明cookiejar的对象,存放cookie的容器
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.zhihu.com')
for item in cookie:
    print(item.name + '=' + item.value)
打印结果
_xsrf=VbG7xdp2zmhpVdphwEjLtG5rrx5mCax8
_zap=a1505863-682f-48ac-afb8-8cf9dcf4bc8a
d_c0="APBm9PZb-A2PTkv5XT1fHtUgjd3gx61CD00=|1532785405"
q_c1=600dcae83fe04a189a555cb68d3a081d|1532785405000|1532785405000
tgw_l7_route=61066e97b5b7b3b0daad1bff47134a22

Process finished with exit code 0

你可能感兴趣的:(python,python爬虫程序笔记)