python网络爬虫学习笔记

By 钟桓

9月 4 2014 更新日期:9月 4 2014

文章目录

1. 介绍：
2. 从简单语句中开始:
3. 传送数据给服务器
4. HTTP头—描述数据的数据
5. 异常
1. 5.0.1. URLError
2. 5.0.2. HTTPError
3. 5.0.3. 处理异常
4. 5.0.4. info和geturl

6. Opener和Handler

7. Basic Authentication

8. 代理

9. Timeout 设置

10. Cookie

11. Debug Log

12. 参考资料：

介绍：

网络爬虫的名字很有意思，英文名称web spider。真得很形象，蜘蛛结网为了获取食物，而我们的爬虫程序，也是为了获取网络上的资源。这篇blog是本人学习过程中的记录。学习过程中，使用的语言是python2.7；python2.7有两个模块，urllib和urllib2，这两个模块提供了很好的网络访问的功能。下面会更好的体会。值得一提的时，在python3中，将urllib和urllib2这两个模块合为一个urllib。感兴趣的可以看这里

urllib和urllib2是python中功能强大得网络工作库，它们让你的网络访问像文件访问一样（例如，文件访问我们要先open()一个文件，它的操作也是类似的，后面就会看到例子）。之所以能够这么方便，因为这些模块的内部很好的使用不同的网络协议来完成这些功能，（学过网络应该了解，访问一个网页这个简单的过程，其实涉及到很多的网络协议，像http，dns等等，而urllib和urllib2封装了这些协议，让我们不用和它们打交道，只需要调用这些模块的方法来完成我们需要的功能）。同时，这些模块也提供一些稍微更复杂一点的借口来处理一些情形，例如用户认证，cookies和代理等等。下面让我们开始来学习它们吧。

从简单语句中开始:

前面说过，使用两个模块，访问网页变得就会像访问文件一样方便。在一般情况下，urllib2访问会更好些（效率上更好，不过urllib还是需要使用，后面会介绍需要urllib做一些事情），所以下面我们来看看使用urllib2的最简单的例子。

import urllib2;

response = urllib2.urlopen("http://www.zhonghuan.info");
html = response.read();
print html;

在终端下下输入命令行 python test.py > zhonghuan.html ,
打开文件后显示的是我的个人blog首页的html代码：

这是最简单的一个利用urllib2访问网页的例子，urllib2是根据URL中:前面的部分来判断是用什么协议访问的，例如，上面的例子我们用的时http，这里也可以换成ftp:,file:,等。。。我们可以不用去了解它内部是如何封装这些网络协议的。

urllib2中可以用一个镜像对象（Request Object）来表示我们http访问，它标示你想要访问的URL地址，我们来看一下下面的例子。

import urllib2

req = urllib2.Request('http://www.zhonghuan.info')
response = urllib2.urlopen(req)
the_page = response.read()
print(the_page)

req变量就是一个Request对象。它确切的标示了你要访问的URL地址。（这里是http://www.zhonghuan.info）；对于其它的形式的访问，例如ftp和file，形式也是类似的，具体可以看[这里][2];

其实，Request对象还能做两个额外的事情。

你可以发送数据给服务器。
你可以发送一些额外的信息（又叫元数据，描述数据的数据。一些语言里面的元类是生成类的类，如python就在这些语言中；所以元数据，顾名思义，描述数据的数据，那么这些被描述的数据是什么呢？上面中，还有request对象的一些信息，而这些描述被放在http头部发送出去了。有关http header，可以看这里）;

传送数据给服务器

有时候，你需要发送数据给服务器，这个地址是URL表示的，通常呢，这个地址的指向是CGI（Common Gateway Interface）脚本或者是其它一些网络应用。（关于CGI脚本,可以看这里，简单的说就是处理上传数据的脚本程序）。在HTTP访问中，通常使用哪个POST方式将数据发送出去，就好像你填完了html中得表单，你需要把表单中得数据发送出去，通常这里使用post请求。当然，post使用还有其它的情况，不单单指的是表单这一种情况。

让我们先看下面的代码：

import urllib
import urllib2

url = 'http://www.someserver.com/cgi-bin/register.cgi'
values = {'name' : 'Michael Foord',
      'location' : 'Northampton',
      'language' : 'Python' }
data = urllib.urlencode(values)  #数据需要重新编码成合适的格式，这里使用的时urllib中得方法，因为urllib2中没有编码的方法
req = urllib2.Request(url, data)  # #这里将需要上传的数据，传递给了equest对象，作为它的参数
response = urllib2.urlopen(req)
the_page = response.read()

关于其它类型的数据上传，可以看这里

除了使用post方式上传数据外，还可以使用get方式上传数据，get上传和post上传明显的区别就是get上传的数据会在URL中得尾部显示出来。可以看下面的代码：

import urllib
import urllib2

data = {}
data['name'] = 'Somebody Here'
data['location'] = 'Northampton'
data['language'] = 'Python'

url_values = urllib.urlencode(data)
print url_values  # 这里的顺序不一定

url = 'http://www.example.com/example.cgi'
full_url = url + '?' + url_values
data = urllib2.urlopen(full_url)

可以悄悄打印出来url_value的形式。

HTTP头—描述数据的数据

现在，我们来讨论一下HTTP头，来看看如何在你的HTTP的Request对象，增加一个HTTP头。

有一些网站，它比较智能，它不喜欢被程序访问（非人为的点击只会加重它服务器的负担）。或者有些网站更加智能点，对于不同的浏览器，会发送不同的网页数据。

可是呢，urllib2默认,会这样标示自己，Python-urllib/x.y(其中，x和y分别是大小版本号，例如我现在使用的时Python-urllib/2.7);而这些数据可能会让一些站点觉得迷惑，要是遇上了不喜欢被程序访问的网站，那么这样的访问可能会直接被忽视。所以，你可以构造一些身份，让站点不会拒绝你。看下面的例子。

import urllib
import urllib2

url = 'http://www.someserver.com/cgi-bin/register.cgi'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' #user_agent用来标示你的浏览器的，向这里就是mozilla
values = {'name' : 'Michael Foord',
      'location' : 'Northampton',
      'language' : 'Python' }

headers = { 'User-Agent' : user_agent }
data = urllib.urlencode(values)

req = urllib2.Request(url, data, headers)

response = urllib2.urlopen(req)

the_page = response.read()

异常

异常时常有，要小心提防呐！想想一般文件操作的时候，会有什么异常呢？文件无法打开，什么权限不够啊，文件不存在啊等等异常。同样的，对于URL访问，也会遇到这些问题，（python一些内部异常，例如ValueError，TypeError等异常，也可能会发生）

URLError

先说说URLError，当没有网络连接，或者访问的服务器地址不存在的时候，在这种情况下，URLError会被抛出来，这个时候，URLError异常会有个“reason”属性，它是一个元组，包含error code（int型）和text error message（string型），看下面的代码

import urllib
import urllib2


req = urllib2.Request('http://www.pretend_server.org')
try: urllib2.urlopen(req)
except urllib2.URLError as e:
    print e.reason

输出[Errno 8] nodename nor servname provided, or not known;输出的内容就是reason，

HTTPError

每一个HTTP访问，会从服务器那儿获得一个“status code”（状态码），通常这些状态码告诉我们服务器无法满足一些访问（直白点说就是一些数据而已，只不过表示的是当前访问的状态，比如当前访问被拒绝了，status code可以告诉你，你哪些举动过分了，出格了，注意，咸猪手不可以有啊~~）。

不过呢，urllib2的默认处理器能够帮助你处理一些服务器的响应，比如说你当前访问的网址被服务器重定向了，就是说你的服务器给你一个新的URL访问了，处理器会帮你直接去访问新的URL。

但是默认的处理器毕竟功能有限，它不能帮助你解决所有问题，比如你访问的网站不存在了（对应404错误，我们有时候会看到这个错误），或者你的访问被禁止了（对应403错误，禁止的原因可能是因为你的权限不够啦等等），又或者是需要你验证啦（对应401）。具体的其它错误本文就不介绍啦，具体可以看这里

让我们看下面的程序，看一下当HTTPError的404错误，也就是页面不存在时候，它会输出点什么。

import urllib
import urllib2


req = urllib2.Request('http://www.zhonghuan.info/no_way')
try: urllib2.urlopen(req)
except urllib2.HTTPError as e:
       print e.code;
     print e.read();

输出：
404

<!DOCTYPE html>

…

<title>Page not found · GitHub Pages</title>

…

处理异常

假设你想要捕捉HTTPError和URLError，有两种基本的方法，推荐第二种噢！

第一种：

from urllib2 import Request, urlopen, URLError, HTTPError


req = Request(http://zhonghuan.info)
try:
    response = urlopen(req)
except HTTPError as e:
    print 'The server couldn\'t fulfill the request.'
    print 'Error code: ', e.code
except URLError as e:
    print 'We failed to reach a server.'
    print 'Reason: ', e.reason
else:
    # everything is fine

第一种方法，HTTPError一定要放在URLError前面，原因呢，和很多语言的异常处理机制一样，HTTPError是URLError的子类，如果发生了HTTPError，它可以被当做是URLError被捕捉。

第二种：

from urllib2 import Request, urlopen, URLError


req = Request(someurl)
try:
       response = urlopen(req)
except URLError as e:
    if hasattr(e, 'reason'):
        print 'We failed to reach a server.'
        print 'Reason: ', e.reason
    elif hasattr(e, 'code'):
        print 'The server couldn\'t fulfill the request.'
        print 'Error code: ', e.code
else:
    # everything is fine

info和geturl

这里介绍两个方法info()和geturl()；

geturl():该方法会返回访问的页面的真实的URL，它的价值在于我们访问的网页可能会被重定向，所以导致访问的URL和我们输入的可能不一样。看下面的例子：

import urllib
import urllib2

url = 'http://weibo.com/u/2103243911';
req = urllib2.Request(url);
response = urllib2.urlopen(req)

print "URL:",url;
print "After redirection:",response.geturl();

以我的微博个人主页为例，其实真实访问被重定向了，真实的网址，从输出中可以看出:

URL: http://weibo.com/u/2103243911

After redirection: http://passport.weibo.com/visitor/visitor?a=enter&url=http%3A%2F%2Fweibo.com%2Fu%2F2103243911&_rand=1409761358.1794

info():可以得到描述页面的信息，返回的是一个httplib.HTTPMessage实例，打印出来很像字典。看下面的代码：

import urllib
import urllib2


url = 'http://zhonghuan.info';
req = urllib2.Request(url);
response = urllib2.urlopen(req);
print response.info();
print response.info().__class__;

输出：

Server: GitHub.com
Content-Type: text/html; charset=utf-8
Last-Modified: Tue, 02 Sep 2014 17:01:39 GMT
Expires: Wed, 03 Sep 2014 15:23:02 GMT
Cache-Control: max-age=600
Content-Length: 4784
Accept-Ranges: bytes
Date: Wed, 03 Sep 2014 16:38:29 GMT
Via: 1.1 varnish
Age: 5127
Connection: close
X-Served-By: cache-lax1433-LAX
X-Cache: HIT
X-Cache-Hits: 1
X-Timer: S1409762309.465760,VS0,VE0
Vary: Accept-Encoding

Class: httplib.HTTPMessage

Opener和Handler

这里介绍Opener和Handler。

什么是Opener呢？其实上面的例子我们一直在用Opener了，就是urlopen。这个是默认的opener，网络访问情况很多，你可以创建比较合适的opener，

什么是Handler呢？其实Opener会调用Handler来处理访问中得琐事，所以Handler很重要，对于特定的协议（例如FTP，HTTP），它知道如何如何处理访问，例如它会帮你处理重定向问题。

在访问的时候，你可能对于Opener有一些要求，例如，你希望得到的Opener能够处理cookie，或者你不希望Opener帮助你处理重定向。

我们如何生成需要得Opener呢？（这里插一下，个人觉得这里的Opener生成方式，和设计模式中得生成器欧式，又叫建造者模式，英文名称Builder Pattern；有些相似，不过不完全一样，但总觉得，在看下去之前，先了解一下这个模式会有好处，没有接触过的朋友可以看这篇Builder pattern）;

要创建一个 opener，可以实例化一个OpenerDirector，
然后调用.add_handler(some_handler_instance)。

不过，可以使用build_opener，这是一个更加方便的函数，用来创建opener对象，他只需要一次函数调用。build_opener默认添加几个处理器，但提供快捷的方法来添加或更新默认处理器。
其他的处理器handlers你或许会希望处理代理，验证，和其他常用但有点特殊的情况。

刚刚提到handler会帮我们处理重定向，但是，如果我们不想要重定向呢，该怎么办，自定义一个handler。看下面的代码：

mport urllib
import urllib2


class RedirectHandler(urllib2.HTTPRedirectHandler):# 这个RedirectHandler继承了HTTPRedirectHandler，不过，它覆盖了父类的方法，让它什么都不做，失去了重定向的功能。
    def http_error_301(self, req, fp, code, msg, headers):
        pass
    def http_error_302(self, req, fp, code, msg, headers):
        pass


webo = "http://weibo.com/u/2103243911"; #访问的是我的微博页面，因为正常情况下，访问时会发生重定向
opener = urllib2.build_opener(RedirectHandler) #这里，我们自定义了一个opener，添加了一个重定向时处理的自定义handler
response = opener.open(webo);# response  = urllib2.urlopen(webo);
print response.geturl();
urllib2.install_opener(opener);  #安装自定义的opener，以后调用urllib2的时候，返回的就是这个opener。

输出结果是：
urllib2.HTTPError: HTTP Error 302: Moved Temporarily

之所以发生http error 302，是因为本来访问我的微博个人主页的时候，它应该发生重定向的，可是我们自己的重定向Handler什么都不做，结果就是发生异常了。

可以看看下面的urllib2关于创建自定义Opener的类图

Basic Authentication

如果一个网站，他提供注册登入这些功能，那么一般它有用户名/密码,如果你访问的页面，系统要求你提供用户名/密码，这个过程叫做Authentication，实在服务器那端所做的操作。它给一些页面提供了安全保护。

一个基本的Authentication（验证）过程是这样的：

客户端提出请求访问某些页面。
服务器返回一个错误，要求进行身份验证。
客户端把用户名/密码（一般这样）编码后发给服务器。
服务器检查这对用户名/密码是否正确，然后返回用户请求的页面或者是一些错误。

上面的过程，还有可能是其它形式，这里只是举个比较普遍的。

通常服务器返回的是401错误，表明访问的网页未授权，同时，返回的response的header内有形如

WWW-Authenticate: SCHEME realm="REALM".

的内容，例如，你想要访问cPanel的管理应用程序，你会收到这样的header：WWW-Authenticate: Basic realm="cPanel"（cPanel 是一套在网页寄存业中最享负盛名的商业软件，其基于 Linux 和 BSD 系统及以 PHP 开发且性质为闭源软件；cPanel 主要是面向客户权级的控制系统）

当我们访问页面的时候，opener会调用handler来处理各种情况，而处理Authentication的handler是urllib2.HTTPBasicAuthHandler，同时需要一个用户密码管理器urllib2.HTTPPasswordMgr。

不幸的时，HTTPPasswordMgr有一个小问题，就是在获取网页前，你需要知道它的realm。幸运的是，它有一个表兄弟HTTPPasswordMgrWithDefaultRealm，这个表兄弟可以事先不知道realm，在realm参数位置上，可以传一个None进去，它更友好的被使用。

下面参考下面的代码：

import urllib2


url = 'http://www.weibo.com'#分别对应域名，账号，密码
username = 'zhonghuan'
password = 'forget_it'
passman = urllib2.HTTPPasswordMgrWithDefaultRealm() #创建密码管理器
passman.add_password(None, url, username, password)# 参数形式（realm，URL，UserName，Password）
authhandler = urllib2.HTTPBasicAuthHandler(passman)#创建Authentication的handler
opener = urllib2.build_opener(authhandler)
urllib2.install_opener(opener) #和上面介绍的一样，install_opener后，每次调用urllib2的urlopen，返回的就是这个opener
pagehandle = urllib2.urlopen(url)

代理

有时候，我们本机不能直接访问，需要代理服务器去访问。urllib2对这个设置代理支持的还不错，可以直接实例化ProxyHandler，它的参数是一个map，key值是代理的访问协议名称，value值是代理的地址。看下面的代码实现。

import urllib2


enable_proxy = True
proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})
null_proxy_handler = urllib2.ProxyHandler({})
if enable_proxy:
    opener = urllib2.build_opener(proxy_handler)
else:
    opener = urllib2.build_opener(null_proxy_handler)
urllib2.install_opener(opener)

Timeout 设置

在老版 Python 中，urllib2 的 API 并没有暴露 Timeout 的设置，要设置 Timeout 值，只能更改 Socket 的全局 Timeout 值。

import urllib2
import socket


socket.setdefaulttimeout(10) # 10 秒钟后超时
urllib2.socket.setdefaulttimeout(10) # 另一种方式

在 Python 2.6 以后，超时可以通过 urllib2.urlopen() 的 timeout 参数直接设置。

import urllib2

response = urllib2.urlopen('http://www.google.com', timeout=10)

urllib2 对 Cookie 的处理也是自动的。如果需要得到某个 Cookie 项的值，可以这么做：

import urllib2
import cookielib


cookie = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
response = opener.open('http://www.google.com')
for item in cookie:
    if item.name == 'some_cookie_item_name':
        print item.value

Debug Log

使用 urllib2 时，可以通过下面的方法把 debug Log 打开，这样收发包的内容就会在屏幕上打印出来，方便调试，有时可以省去抓包的工作

import urllib2


httpHandler = urllib2.HTTPHandler(debuglevel=1)
httpsHandler = urllib2.HTTPSHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler, httpsHandler)
urllib2.install_opener(opener)
response = urllib2.urlopen('http://www.google.com')

参考资料：

python urllib2的使用 (推荐)
python网络爬虫入门教程 (推荐)
CGI脚本入门 (推荐)
urllib2 源码小剖
Python 标准库 urllib2 的使用细节 (推荐)
Authentication with Python (推荐)
http://en.wikipedia.org/wiki/List_of_HTTP_header_fields

python网络爬虫学习笔记

python网络爬虫学习笔记

介绍：

从简单语句中开始:

传送数据给服务器

HTTP头—描述数据的数据

异常

URLError

HTTPError

处理异常

info和geturl

Opener和Handler

Basic Authentication

代理

Timeout 设置

Cookie

Debug Log

参考资料：

你可能感兴趣的:(python,网络爬虫,webspider)