爬虫自动登录访同授权页面

http.cookiejar模块
该模块主要的类有 Cookiejar,、 Filecookiejar、 MozillaCooklejar、 LwpCookiejar。这四个的作用分别如下
1.CookieJar:管理HTTPcookie值、存储HTTP请求生成的cookie、向传出的HTTP请求加cookies的对象,整个cookie都存储在内存中,对 Cooklejar实例进行垃圾回收后cookie也将丢失
2. Filecookiejar( filename,delayload=None, policy=None):从 Cookiejar派生而来,用创建 File Cookiejars实例,检索cookie信息并将cookie存储到文件中, filename是存储cookies的文件名, deadload为True时支持延迟访问文件,即只有在需要时读取文件或在文件中存数据。
3 Mozilla Cookiejar( filename,delayload= None, policy=None):从Filecookiejar生来,创建与 Mozilla浏览器cookes.txt兼容的FileCookieJar实例。
4. Lwpcookiejar( ( filename,deadload=None,policy=None):从 Filecookiejar派生而来,创建与 libwww-per标准的 Set-cookie3文件格式兼容的Filecookieja实例。
利用http.cookiejar和request.Httpcookieprocessor登录人人网。相关示例代码如下:
 

from urllib import request,parse
from http.cookiejar import CookieJar
headers = {
    'User-Agent':'Mozilla/5.0 (windows NT 10.0; win64; x64) Applewekit/537.36 (KHTML,like Gecko) Chrome/62.0.3202.94'
}
def get_opener():
    cookiejar = CookieJar()
    handler = request.HttpCookieProcessor(cookieJar)
    opener = request.build_opener(handler)

 

你可能感兴趣的:(爬虫,python)