Python爬虫学习(一)--简单cookies爬取

Python爬虫urllib模块之cookie的简单爬取

1.直接爬取(cookie显示在编译器中):

import http.cookiejar,urllib.request

cookie = http.cookiejar.CookieJar()   #   声明CookieJar对象
handler = urllib.request.HTTPCookieProcessor(cookie) # 构建Handler
opener = urllib.request.build_opener(handler)
response = opener.open('url') # 打开链接
for item in cookie:
    print(item.name+"="+item.value)

2.cookie保存在指定文件中

import http.cookiejar,urllib.request

filename = '指定文件名(文件类型一般为txt)'

cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('url')

cookie.save(ignore_discard=True,ignore_expires=True)



3.LWPCookieJar保存:

cookie = http.cookiejar.LWPCookieJar(filename)

简单的注释:

1.Cookiejar():

管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的 HTTP请求添加cookie的对象。

2.MozillaCookieJar
CookieJar的子类,可以用来处理读取和保存Cookies,将Cookies保存为Mozi浏览器的Cookies格式

3.cookie.save参数解释:

ignore_discard的意思是即使cookies将被丢弃也将它保存下来, ignore_expires的意思 是如果cookies已经过期也将它保存并且文件已存在时将覆盖。

参考并推荐书籍: https://cuiqingcai.com/5052.html.

你可能感兴趣的:(python爬虫,python)