python-45: opener 的使用

上一小节讲了cookielib 的使用,不知道大家仔细看了没有,为了便于分析,我这里引用上一节的一段代码

import urllib2
import cookielib
#声明一个CookieJar对象实例来保存cookie
cookie = cookielib.CookieJar()
#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器
handler=urllib2.HTTPCookieProcessor(cookie)
#通过handler来构建opener
opener = urllib2.build_opener(handler)
#此处的open方法同urllib2的urlopen方法,也可以传入request
response = opener.open('http://www.baidu.com')
for item in cookie:
    print 'Name = '+item.name
    print 'Value = '+item.value

其实上一节的三段代码很好理解,只要你认真的去看然后找出他们的规律,这里我给大家简单的说一下

  1. 前两句是引入模块的操作,只要记住需要什么模块就行

  2. cookie = cookielib.CookieJar() 前面说了CookieJar用来保存cookies到变量中

  3. handler=urllib2.HTTPCookieProcessor(cookie)
    opener = urllib2.build_opener(handler)
    response = opener.open('http://www.baidu.com')

        这三句话每段程序里面都有

    4. 剩下来的就是对数据的各种操作,包括输出,保存,载入等等

1、2、4 都很容易,所以我们只要重点分析 3 就好,其实 3 也就是这一小节的重点, opener的使用

我们先来看带有网址的 response = opener.open('http://www.baidu.com'),是不是跟我们前面的某段代码很像呢,现在我把这段代码贴出来看看
response = urllib2.urlopen('http://www.baidu.com')
我们知道urllib2.urlopen的作用是打开一个网址,那么类似的,opener.open是不是也可以打开一个网址呢?我们可以编写代码来测试看看,但是在编写之前我又认真的看了这三句话,第一句我不知道是什么意思,暂且不管,第二句我本来也不知道的,但是我看到 build_opener 这个单词,build不就是构建,建造的意思吗?而且 opener也是执行这一句之后得来的,这是不是说,要完成整个的功能,我至少需要用到这两句话,于是我测试了下面的代码:

#!/uer/bin/env python
# -*- coding: UTF-8 -*-
__author__ = '217小月月坑'
'''
测试opener.open功能
'''

import urllib2

opener = urllib2.build_opener()
response = opener.open("http://www.lvye.org/userinfo.php?uid=409557")
print response.read()

OK,有输出,这说明了opener.open就是打开一个网址的操作,但是urlopen和opener.open 有什么区别呢?
1. urlopen是opener.open中的一种,是最简单的opener.open
2. 基本的urlopen()函数不支持验证、cookie或其他HTTP高级功能,要支持这些功能,必须使用opener
3. build_opener()函数来创建自己的自定义Opener对象

关于build_opener()函数的更多信息,可以看下面这张图片(本图出自现代魔法学院:http://www.nowamagic.net/academy/detail/1302879)

python-45: opener 的使用_第1张图片

结合我们最近讲的内容,我们来看看要创建一个可以处理cookies的opener应该怎么做呢
从图上我们可以看出,要给opener增加处理cookies的功能,我们需要使用到 HTTPCookieProcessor 的处理程序,我们试着来写一下

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
response = opener.open('http://www.baidu.com')

我们再给程序变变形:

handler=urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
response = opener.open('http://www.baidu.com')

这不就是前面说的3句话吗

有了这三句话的理解,我们再加上前面说的cookielib模块里面相应的类的功能,前面使用cookielib的例子就很好记下来了

你可能感兴趣的:(爬虫,python)